日期
类型
状态
链接
摘要
标签
分类
图标
密码
URL
参考
在一台配置普通的服务器上运行全参数的DeepSeek-R1 671B并且以完全可用的速度运行
使用Ktransformers架构,成功低成本运行DeepSeek-R1 671B Q4量化!
Ktransformers可以将FFN层交由CPU处理,大大节省了显存!!!
硬件
Xeon 6430 32C 双路共64核128T
内存 480GB DDR5
显卡 4090 24G 单卡
运行速度:约6-8 token/s
四、实际场景参考
模型/量化 | 显存占用(近似) | 适用硬件场景 |
70B-8bit | 65~70 GiB | NVIDIA A100/A800 (80GB) |
70B-4bit | 32~35 GiB | NVIDIA RTX 4090 (24GB) + 显存共享技术 |
14B-8bit | 13~14 GiB | NVIDIA RTX 3090 (24GB) |
14B-4bit | 6.5~7 GiB | 消费级显卡(如RTX 4060 8GB) |
配置
一、计算公式
显存占用 = 参数量 × 每参数字节数
- 参数单位:1B(Billion)= 10^9 个参数
- 量化位数与字节关系:
- FP16(未量化):2 字节/参数
- 8-bit 量化:1 字节/参数
- 4-bit 量化:0.5 字节/参数
二、具体数值
1. 70B 模型(700 亿参数)
量化方式 | 显存计算 | 显存占用(近似值) |
FP16 | 70B × 2 字节 = 140 GB | 130.5 GiB |
8-bit | 70B × 1 字节 = 70 GB | 65.2 GiB |
4-bit | 70B × 0.5 字节 = 35 GB | 32.6 GiB |
2. 14B 模型(140 亿参数)
量化方式 | 显存计算 | 显存占用(近似值) |
FP16 | 14B × 2 字节 = 28 GB | 26.1 GiB |
8-bit | 14B × 1 字节 = 14 GB | 13.0 GiB |
4-bit | 14B × 0.5 字节 = 7 GB | 6.5 GiB |
三、单位换算说明
- 1 GiB(Gibibyte)= 1024^3 字节 ≈ 1.07374 GB(十进制单位)
- 行业常用 GB(十进制) 简化计算,但实际显存分配以 GiB(二进制) 为准。
- 精确公式:
显存()参数量每参数字节数
四、实际部署注意事项
- 推理场景:
- 显存需额外预留 20%~30% 用于中间激活值(如 70B-8bit 需 ≥80 GiB 物理显存)。
- 训练场景:
- 显存需求为 参数量的 3~4 倍(需存储梯度、优化器状态等)。
- 例如:训练 70B-FP16 模型需 140GB × 3 ≈ 420 GB 显存,需多卡并行。
- 硬件选择:
- 70B-4bit:需 NVIDIA RTX 4090(24GB) + 共享显存技术 或 A6000(48GB)。
- 14B-4bit:可在 RTX 4060(8GB) 或消费级显卡运行。
五、性能与精度的权衡
模型/量化 | 显存占用 | 典型硬件 | 适用场景 |
70B-FP16 | 130 GiB | H100/A100 集群 | 科研、复杂推理任务 |
70B-8bit | 65 GiB | A800 (80GB) | 高精度商业部署 |
70B-4bit | 32 GiB | RTX 4090*2 | 边缘端轻量化推理 |
14B-4bit | 6.5 GiB | RTX 4060 | 个人开发者、实时应用 |
通过上述计算和配置建议,可根据任务需求(精度、速度、成本)灵活选择模型规模和量化策略。
- 作者:Wpenga
- 链接:https://wpeng.dpdns.org/article/1a83fdc8-f8a6-8056-817c-e051bf8d587d
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。

