Deekseep部署 | Wpenga Blog

日期

类型

状态

链接

摘要

标签

分类

图标

密码

URL

参考

单卡RTX4090部署R1满血版之KTransformers篇

全新混合架构，显卡需求超低！教你轻松部署DeepSeek-R1全参数Q4量化，这就是Ktransformers_哔哩哔哩_bilibili

在一台配置普通的服务器上运行全参数的DeepSeek-R1 671B并且以完全可用的速度运行使用Ktransformers架构，成功低成本运行DeepSeek-R1 671B Q4量化！ Ktransformers可以将FFN层交由CPU处理，大大节省了显存！！！硬件 Xeon 6430 32C 双路共64核128T 内存 480GB DDR5 显卡 4090 24G 单卡

运行速度：约6-8 token/s

四、实际场景参考

模型/量化	显存占用（近似）	适用硬件场景
70B-8bit	65~70 GiB	NVIDIA A100/A800 (80GB)
70B-4bit	32~35 GiB	NVIDIA RTX 4090 (24GB) + 显存共享技术
14B-8bit	13~14 GiB	NVIDIA RTX 3090 (24GB)
14B-4bit	6.5~7 GiB	消费级显卡（如RTX 4060 8GB）

配置

一、计算公式

显存占用 = 参数量 × 每参数字节数

参数单位：1B（Billion）= 10^9 个参数

量化位数与字节关系：

FP16（未量化）：2 字节/参数
8-bit 量化：1 字节/参数
4-bit 量化：0.5 字节/参数

二、具体数值

1. 70B 模型（700 亿参数）

量化方式	显存计算	显存占用（近似值）
FP16	`70B × 2 字节 = 140 GB`	130.5 GiB
8-bit	`70B × 1 字节 = 70 GB`	65.2 GiB
4-bit	`70B × 0.5 字节 = 35 GB`	32.6 GiB

2. 14B 模型（140 亿参数）

量化方式	显存计算	显存占用（近似值）
FP16	`14B × 2 字节 = 28 GB`	26.1 GiB
8-bit	`14B × 1 字节 = 14 GB`	13.0 GiB
4-bit	`14B × 0.5 字节 = 7 GB`	6.5 GiB

三、单位换算说明

1 GiB（Gibibyte）= 1024^3 字节 ≈ 1.07374 GB（十进制单位）

行业常用 GB（十进制） 简化计算，但实际显存分配以 GiB（二进制） 为准。

精确公式：

显存（）参数量每参数字节数

四、实际部署注意事项

推理场景：

显存需额外预留 20%~30% 用于中间激活值（如 70B-8bit 需 ≥80 GiB 物理显存）。

训练场景：

显存需求为 参数量的 3~4 倍（需存储梯度、优化器状态等）。

例如：训练 70B-FP16 模型需 140GB × 3 ≈ 420 GB 显存，需多卡并行。

硬件选择：

70B-4bit：需 NVIDIA RTX 4090（24GB） + 共享显存技术或 A6000（48GB）。

14B-4bit：可在 RTX 4060（8GB）或消费级显卡运行。

五、性能与精度的权衡

模型/量化	显存占用	典型硬件	适用场景
70B-FP16	130 GiB	H100/A100 集群	科研、复杂推理任务
70B-8bit	65 GiB	A800 (80GB)	高精度商业部署
70B-4bit	32 GiB	RTX 4090*2	边缘端轻量化推理
14B-4bit	6.5 GiB	RTX 4060	个人开发者、实时应用