本地部署 DeepSeek 硬件配置要求


DeepSeek 模型本地部署配置要求

组件/模型大小最低要求 (可运行,性能较低)推荐要求 (流畅运行,性能较好)备注
CPU8 核 Intel 或 AMD 处理器 (x86-64 架构)16 核或更高,支持 AVX2 指令集CPU 性能影响模型的加载速度和非 GPU 部分的计算。
内存 (RAM)16 GB (对于较小模型如 1.5B)32 GB 或更高 (对于较大模型),64 GB 或 128 GB 适用于更大模型尺寸和复杂工作负载内存大小直接影响模型是否能完全加载以及处理长上下文的能力。建议预留 20-30% 的额外容量。
显卡 (GPU)NVIDIA GPU with 8GB VRAM (例如 RTX 3060) (适用于 1.5B 或部分量化模型)NVIDIA RTX 4090, A100 或企业级 GPU,24GB+ VRAMGPU 显存是运行 DeepSeek 模型的关键瓶颈。不同模型尺寸和精度 (如 FP16, BF16, INT8, INT4) 对显存的要求差异很大。需要 NVIDIA GPU 并支持 CUDA。AMD GPU 和华为昇腾 NPU 也正在得到支持。
GPU 显存 (VRAM)1.5B 模型: ~4 GB (建议 8GB 或更高) <br> 7B 模型: ~8 GB <br> 14B 模型: ~16 GB <br> 32B 模型: ~24 GB <br> 70B 模型: ~48 GB (需要多卡)1.5B 模型: NVIDIA RTX 3060 12GB 或更高 <br> 7B 模型: NVIDIA RTX 3070 8GB 或更高 (或 RTX 4090 24GB 或更高以获得更好性能) <br> 14B 模型: NVIDIA RTX 3080 10GB 或更高 (建议 RTX 4080 16GB 或 RTX 4090 24GB) <br> 32B 模型: NVIDIA RTX 4090 24GB 或更高 <br> 70B 模型: NVIDIA RTX 4090 24GB x2 或更高这些是对于非量化或标准精度的 VRAM 需求。量化模型 (如 4-bit) 会显著降低 VRAM 需求。例如,4-bit 量化的 70B 模型可能只需要 ~46GB VRAM (RTX 4090 x2)。
存储空间 (硬盘)50GB (对于较小模型)100GB SSD 空间 (对于多数模型),1TB-2TB NVMe PCIe Gen 4 SSD (推荐),4TB+ SSD (适用于全面的模型库)模型文件较大,特别是 DeepSeek-V3 完整模型 (671B 参数,总大小约 685GB,其中主模型权重 671GB,MTP 模块权重 14GB)。量化模型文件大小会减小。推荐使用 NVMe SSD 以获得更快的加载和推理速度。
操作系统Windows 10 或 11 (64 位), Linux (Ubuntu 20.04 或更高推荐)Windows 11, Linux (Ubuntu 20.04 或更高推荐)Linux 通常在驱动和依赖方面更稳定,但 DeepSeek 也支持 Windows 部署。
Python 版本Python 3.8 或更高 (推荐 Python 3.9 或更高)Python 3.9 或更高确保安装与依赖库兼容的 Python 版本。
CUDA Toolkit与你的 NVIDIA 驱动兼容的 CUDA 版本 (例如 CUDA 11.8)与你的 NVIDIA 驱动兼容的最新稳定 CUDA 版本运行需要 GPU 加速,需要安装对应版本的 CUDA Toolkit。
部署工具/框架Ollama, LM Studio, llama.cpp, vLLM, LightLLM, LMDeploy, SGLang (for AMD GPU)根据具体需求选择合适的工具或框架。例如,llama.cpp 适用于 CPU 或消费级 GPU,vLLM 和 LightLLM 适用于高性能推理。这些工具和框架可以简化模型的下载、加载、运行和 API 接口的提供。
模型文件需要从 HuggingFace 等平台下载 DeepSeek 模型权重文件。根据硬件选择合适的模型尺寸和精度版本 (如 FP16, BF16, INT8, INT4 量化)。根据实际应用需求和硬件能力下载对应模型。DeepSeek-V3 官方提供 FP8 权重,如果需要 BF16 权重可能需要转换或使用支持的推理框架。

DeepSeek 模型变体及其 VRAM 需求 (基于 DeepSeek-R1 和 DeepSeek-V3 的公开信息整理)

模型变体参数量 (Billion)大约 VRAM 需求 (GB)推荐 GPU 配置备注
DeepSeek-R1-Distill-Qwen-1.5B1.5~0.7 (4-bit), ~3.9NVIDIA RTX 3060 12GB 或更高 (非量化) / NVIDIA RTX 3050 8GB 或更高 (4-bit 量化)蒸馏模型,对硬件要求较低,适用于基础任务。
DeepSeek-R1-Distill-Qwen-7B7~3.3 (非量化), ~4.5 (4-bit)NVIDIA RTX 3070 8GB 或更高 (非量化) / NVIDIA RTX 3060 12GB 或更高 (4-bit 量化)蒸馏模型,性能有所提升,适用于增强型推理和代码生成。
DeepSeek-R1-Distill-Llama-8B8~3.7 (非量化), ~5 (4-bit)NVIDIA RTX 3070 8GB 或更高 (非量化) / NVIDIA RTX 3060 12GB 或更高 (4-bit 量化)蒸馏模型,性能与 7B 类似。
DeepSeek-R1-Distill-Qwen-14B14~6.5 (非量化), ~9 (4-bit)NVIDIA RTX 3080 10GB 或更高 (非量化) / NVIDIA RTX 4080 16GB 或更高 (4-bit 量化)蒸馏模型,适合需要高级推理和代码辅助的场景。对于非量化版本,12-16GB VRAM 推荐。
DeepSeek-R1-Distill-Qwen-32B32~14.9 (非量化), ~21 (4-bit)NVIDIA RTX 4090 24GB (非量化) / NVIDIA RTX 4090 24GB 或更高 (4-bit 量化)蒸馏模型,性能更强,非量化版本可能需要多卡设置。
DeepSeek-R1-Distill-Llama-70B70~32.7 (非量化), ~46 (4-bit)NVIDIA RTX 4090 24GB x2 (非量化或 4-bit 量化)蒸馏模型,适用于需要高精度和快速处理速度的企业级应用和研究环境。
DeepSeek-R1 / DeepSeek-R1-Zero671~1342 (非量化), ~436 (4-bit)NVIDIA A100 80GB x16 (非量化) / NVIDIA A100 80GB x6 或 RTX 3090 24GB x20 (4-bit 量化)全尺寸模型,需要大量的 VRAM 和多 GPU 配置,主要用于企业级应用和高级研究。
DeepSeek-V3671大约 200GB (2.71-bit 量化)CPU + 80GB RAM (最低,速度慢) / RAM + VRAM 总和 >= 160GB+ ( decently fast)DeepSeek-V3 采用了 MoE 架构,虽然总参数量大,但激活参数量较少 (每个 token 激活 37B),通过量化可以显著降低本地部署的硬件需求。官方提供 FP8 权重。Unsloth 提供了量化版本。

请注意:

  • 上述 VRAM 需求是近似值,实际需求可能因具体的部署框架、精度、批量大小 (batch size) 和其他优化设置而有所不同。
  • 对于需要多 GPU 的模型,需要考虑 GPU 之间的互联带宽(如 NVLink)以获得最佳性能。
  • 在选择硬件时,最好参考 DeepSeek 官方文档和相关社区的最新推荐配置,并根据自己的预算和需求进行权衡。使用量化模型是降低硬件门槛的有效方法。