博文

DeepSeek-R2已公布的核心信息

作者提米哥 2025年5月3日

DeepSeek-R2已公布的核心信息

1. 参数规模与架构创新

1.2万亿参数：模型参数量较前代（R1）提升近一倍，对标国际顶尖模型。
Hybrid MoE 3.0架构：融合稀疏专家模型（MoE）与密集Transformer，动态激活参数仅780亿，降低计算消耗。
128k超长上下文支持：多轮对话保持率提升47%。

2. 硬件与成本优势

昇腾910B芯片适配：算力利用率82%，性能接近英伟达A100集群的91%。
推理成本骤降97%：输入/输出成本分别为0.07美元和0.27美元/百万token。
硬件自主化：结合华为昇腾910C与CloudMatrix 384超节点，推动国产算力生态。

3. 多模态与垂直领域突破

视觉理解：ViT-Transformer架构在COCO图像分割任务中准确率92.4%，超CLIP模型11.6%。
专业场景：医疗诊断准确率超98%，工业质检误检率千万分之7.2，代码生成能力显著优化。
多语言支持：增强中英文及小语种混合任务处理能力。