DeepSeek 模型本地部署配置要求
组件/模型大小 | 最低要求 (可运行,性能较低) | 推荐要求 (流畅运行,性能较好) | 备注 |
CPU | 8 核 Intel 或 AMD 处理器 (x86-64 架构) | 16 核或更高,支持 AVX2 指令集 | CPU 性能影响模型的加载速度和非 GPU 部分的计算。 |
内存 (RAM) | 16 GB (对于较小模型如 1.5B) | 32 GB 或更高 (对于较大模型),64 GB 或 128 GB 适用于更大模型尺寸和复杂工作负载 | 内存大小直接影响模型是否能完全加载以及处理长上下文的能力。建议预留 20-30% 的额外容量。 |
显卡 (GPU) | NVIDIA GPU with 8GB VRAM (例如 RTX 3060) (适用于 1.5B 或部分量化模型) | NVIDIA RTX 4090, A100 或企业级 GPU,24GB+ VRAM | GPU 显存是运行 DeepSeek 模型的关键瓶颈。不同模型尺寸和精度 (如 FP16, BF16, INT8, INT4) 对显存的要求差异很大。需要 NVIDIA GPU 并支持 CUDA。AMD GPU 和华为昇腾 NPU 也正在得到支持。 |
GPU 显存 (VRAM) | 1.5B 模型: ~4 GB (建议 8GB 或更高) <br> 7B 模型: ~8 GB <br> 14B 模型: ~16 GB <br> 32B 模型: ~24 GB <br> 70B 模型: ~48 GB (需要多卡) | 1.5B 模型: NVIDIA RTX 3060 12GB 或更高 <br> 7B 模型: NVIDIA RTX 3070 8GB 或更高 (或 RTX 4090 24GB 或更高以获得更好性能) <br> 14B 模型: NVIDIA RTX 3080 10GB 或更高 (建议 RTX 4080 16GB 或 RTX 4090 24GB) <br> 32B 模型: NVIDIA RTX 4090 24GB 或更高 <br> 70B 模型: NVIDIA RTX 4090 24GB x2 或更高 | 这些是对于非量化或标准精度的 VRAM 需求。量化模型 (如 4-bit) 会显著降低 VRAM 需求。例如,4-bit 量化的 70B 模型可能只需要 ~46GB VRAM (RTX 4090 x2)。 |
存储空间 (硬盘) | 50GB (对于较小模型) | 100GB SSD 空间 (对于多数模型),1TB-2TB NVMe PCIe Gen 4 SSD (推荐),4TB+ SSD (适用于全面的模型库) | 模型文件较大,特别是 DeepSeek-V3 完整模型 (671B 参数,总大小约 685GB,其中主模型权重 671GB,MTP 模块权重 14GB)。量化模型文件大小会减小。推荐使用 NVMe SSD 以获得更快的加载和推理速度。 |
操作系统 | Windows 10 或 11 (64 位), Linux (Ubuntu 20.04 或更高推荐) | Windows 11, Linux (Ubuntu 20.04 或更高推荐) | Linux 通常在驱动和依赖方面更稳定,但 DeepSeek 也支持 Windows 部署。 |
Python 版本 | Python 3.8 或更高 (推荐 Python 3.9 或更高) | Python 3.9 或更高 | 确保安装与依赖库兼容的 Python 版本。 |
CUDA Toolkit | 与你的 NVIDIA 驱动兼容的 CUDA 版本 (例如 CUDA 11.8) | 与你的 NVIDIA 驱动兼容的最新稳定 CUDA 版本 | 运行需要 GPU 加速,需要安装对应版本的 CUDA Toolkit。 |
部署工具/框架 | Ollama, LM Studio, llama.cpp, vLLM, LightLLM, LMDeploy, SGLang (for AMD GPU) | 根据具体需求选择合适的工具或框架。例如,llama.cpp 适用于 CPU 或消费级 GPU,vLLM 和 LightLLM 适用于高性能推理。 | 这些工具和框架可以简化模型的下载、加载、运行和 API 接口的提供。 |
模型文件 | 需要从 HuggingFace 等平台下载 DeepSeek 模型权重文件。根据硬件选择合适的模型尺寸和精度版本 (如 FP16, BF16, INT8, INT4 量化)。 | 根据实际应用需求和硬件能力下载对应模型。 | DeepSeek-V3 官方提供 FP8 权重,如果需要 BF16 权重可能需要转换或使用支持的推理框架。 |
DeepSeek 模型变体及其 VRAM 需求 (基于 DeepSeek-R1 和 DeepSeek-V3 的公开信息整理)
模型变体 | 参数量 (Billion) | 大约 VRAM 需求 (GB) | 推荐 GPU 配置 | 备注 |
DeepSeek-R1-Distill-Qwen-1.5B | 1.5 | ~0.7 (4-bit), ~3.9 | NVIDIA RTX 3060 12GB 或更高 (非量化) / NVIDIA RTX 3050 8GB 或更高 (4-bit 量化) | 蒸馏模型,对硬件要求较低,适用于基础任务。 |
DeepSeek-R1-Distill-Qwen-7B | 7 | ~3.3 (非量化), ~4.5 (4-bit) | NVIDIA RTX 3070 8GB 或更高 (非量化) / NVIDIA RTX 3060 12GB 或更高 (4-bit 量化) | 蒸馏模型,性能有所提升,适用于增强型推理和代码生成。 |
DeepSeek-R1-Distill-Llama-8B | 8 | ~3.7 (非量化), ~5 (4-bit) | NVIDIA RTX 3070 8GB 或更高 (非量化) / NVIDIA RTX 3060 12GB 或更高 (4-bit 量化) | 蒸馏模型,性能与 7B 类似。 |
DeepSeek-R1-Distill-Qwen-14B | 14 | ~6.5 (非量化), ~9 (4-bit) | NVIDIA RTX 3080 10GB 或更高 (非量化) / NVIDIA RTX 4080 16GB 或更高 (4-bit 量化) | 蒸馏模型,适合需要高级推理和代码辅助的场景。对于非量化版本,12-16GB VRAM 推荐。 |
DeepSeek-R1-Distill-Qwen-32B | 32 | ~14.9 (非量化), ~21 (4-bit) | NVIDIA RTX 4090 24GB (非量化) / NVIDIA RTX 4090 24GB 或更高 (4-bit 量化) | 蒸馏模型,性能更强,非量化版本可能需要多卡设置。 |
DeepSeek-R1-Distill-Llama-70B | 70 | ~32.7 (非量化), ~46 (4-bit) | NVIDIA RTX 4090 24GB x2 (非量化或 4-bit 量化) | 蒸馏模型,适用于需要高精度和快速处理速度的企业级应用和研究环境。 |
DeepSeek-R1 / DeepSeek-R1-Zero | 671 | ~1342 (非量化), ~436 (4-bit) | NVIDIA A100 80GB x16 (非量化) / NVIDIA A100 80GB x6 或 RTX 3090 24GB x20 (4-bit 量化) | 全尺寸模型,需要大量的 VRAM 和多 GPU 配置,主要用于企业级应用和高级研究。 |
DeepSeek-V3 | 671 | 大约 200GB (2.71-bit 量化) | CPU + 80GB RAM (最低,速度慢) / RAM + VRAM 总和 >= 160GB+ ( decently fast) | DeepSeek-V3 采用了 MoE 架构,虽然总参数量大,但激活参数量较少 (每个 token 激活 37B),通过量化可以显著降低本地部署的硬件需求。官方提供 FP8 权重。Unsloth 提供了量化版本。 |
请注意:
- 上述 VRAM 需求是近似值,实际需求可能因具体的部署框架、精度、批量大小 (batch size) 和其他优化设置而有所不同。
- 对于需要多 GPU 的模型,需要考虑 GPU 之间的互联带宽(如 NVLink)以获得最佳性能。
- 在选择硬件时,最好参考 DeepSeek 官方文档和相关社区的最新推荐配置,并根据自己的预算和需求进行权衡。使用量化模型是降低硬件门槛的有效方法。