DeepSeek-R2已公布的核心信息


DeepSeek-R2已公布的核心信息

1. 参数规模与架构创新

  • 1.2万亿参数:模型参数量较前代(R1)提升近一倍,对标国际顶尖模型。
  • Hybrid MoE 3.0架构:融合稀疏专家模型(MoE)与密集Transformer,动态激活参数仅780亿,降低计算消耗。
  • 128k超长上下文支持:多轮对话保持率提升47%。

2. 硬件与成本优势

  • 昇腾910B芯片适配:算力利用率82%,性能接近英伟达A100集群的91%。
  • 推理成本骤降97%:输入/输出成本分别为0.07美元和0.27美元/百万token。
  • 硬件自主化:结合华为昇腾910C与CloudMatrix 384超节点,推动国产算力生态。

3. 多模态与垂直领域突破

  • 视觉理解:ViT-Transformer架构在COCO图像分割任务中准确率92.4%,超CLIP模型11.6%。
  • 专业场景:医疗诊断准确率超98%,工业质检误检率千万分之7.2,代码生成能力显著优化。
  • 多语言支持:增强中英文及小语种混合任务处理能力。