Lazy loaded image
Deekseep部署
字数 560阅读时长 2 分钟
2025-2-28
2025-2-28
日期
类型
状态
链接
摘要
标签
分类
图标
密码
URL

参考

在一台配置普通的服务器上运行全参数的DeepSeek-R1 671B并且以完全可用的速度运行 使用Ktransformers架构,成功低成本运行DeepSeek-R1 671B Q4量化! Ktransformers可以将FFN层交由CPU处理,大大节省了显存!!! 硬件 Xeon 6430 32C 双路共64核128T 内存 480GB DDR5 显卡 4090 24G 单卡
运行速度:约6-8 token/s
 

四、实际场景参考

模型/量化
显存占用(近似)
适用硬件场景
70B-8bit
65~70 GiB
NVIDIA A100/A800 (80GB)
70B-4bit
32~35 GiB
NVIDIA RTX 4090 (24GB) + 显存共享技术
14B-8bit
13~14 GiB
NVIDIA RTX 3090 (24GB)
14B-4bit
6.5~7 GiB
消费级显卡(如RTX 4060 8GB)

配置

一、计算公式

显存占用 = 参数量 × 每参数字节数
  • 参数单位:1B(Billion)= 10^9 个参数
  • 量化位数与字节关系
    • FP16(未量化):2 字节/参数
    • 8-bit 量化:1 字节/参数
    • 4-bit 量化:0.5 字节/参数

二、具体数值

1. 70B 模型(700 亿参数)

量化方式
显存计算
显存占用(近似值)
FP16
70B × 2 字节 = 140 GB
130.5 GiB
8-bit
70B × 1 字节 = 70 GB
65.2 GiB
4-bit
70B × 0.5 字节 = 35 GB
32.6 GiB

2. 14B 模型(140 亿参数)

量化方式
显存计算
显存占用(近似值)
FP16
14B × 2 字节 = 28 GB
26.1 GiB
8-bit
14B × 1 字节 = 14 GB
13.0 GiB
4-bit
14B × 0.5 字节 = 7 GB
6.5 GiB

三、单位换算说明

  • 1 GiB(Gibibyte)= 1024^3 字节 ≈ 1.07374 GB(十进制单位)
  • 行业常用 GB(十进制) 简化计算,但实际显存分配以 GiB(二进制) 为准。
  • 精确公式:
显存()参数量每参数字节数

四、实际部署注意事项

  1. 推理场景
      • 显存需额外预留 20%~30% 用于中间激活值(如 70B-8bit 需 ≥80 GiB 物理显存)。
  1. 训练场景
      • 显存需求为 参数量的 3~4 倍(需存储梯度、优化器状态等)。
      • 例如:训练 70B-FP16 模型需 140GB × 3 ≈ 420 GB 显存,需多卡并行。
  1. 硬件选择
      • 70B-4bit:需 NVIDIA RTX 4090(24GB) + 共享显存技术 或 A6000(48GB)。
      • 14B-4bit:可在 RTX 4060(8GB) 或消费级显卡运行。

五、性能与精度的权衡

模型/量化
显存占用
典型硬件
适用场景
70B-FP16
130 GiB
H100/A100 集群
科研、复杂推理任务
70B-8bit
65 GiB
A800 (80GB)
高精度商业部署
70B-4bit
32 GiB
RTX 4090*2
边缘端轻量化推理
14B-4bit
6.5 GiB
RTX 4060
个人开发者、实时应用

通过上述计算和配置建议,可根据任务需求(精度、速度、成本)灵活选择模型规模和量化策略。
上一篇
屏幕测试
下一篇
内存清理工具