作加

大模型评测迈入新阶段:中国信通院发布“方升”3.0体系


全新评测标准上线,覆盖底层属性与高级智能

近日,中国信息通信研究院(简称“信通院”)正式发布“方升”人工智能大模型基准测试体系3.0版本,标志着我国AI评测能力迈上新台阶。此次升级不仅强化了对模型基础属性的测试,如参数规模和推理效率,还首次系统性地引入了对高级智能能力的评估,涵盖全模态理解、长期记忆、自主学习等十大前沿方向。

这一新体系旨在更好地服务于工业制造、基础科研、金融科技等关键行业,提供更具针对性和深度的场景化评测方案。

构建更完善的评测基础设施

为支撑“方升”3.0的有效实施,信通院在评测基础设施方面进行了多项升级:

  • 数据扩容:计划新增300万条高质量测试数据,覆盖多语言、多任务与多场景需求。
  • 方法创新:聚焦高质量测试数据的合成与评估技术,系统性解决当前大模型评测中的关键技术瓶颈。
  • 仿真环境升级:构建新一代智能评测基座,新增多智能体交互与环境感知仿真测试环境,提升对复杂场景下协同与适应能力的评估能力。

每两个月一次评测,推动行业持续优化

自2024年起,信通院将每两个月组织一次大模型基准测试活动。在最新一轮测试中,共评估了141个大模型和7个智能体,涵盖基础能力、推理能力、代码应用能力和多模态理解能力。

测试结果显示,OpenAI 的 GPT-5依旧在综合能力上保持领先,而国内的 Qwen3-Max-Preview(阿里巴巴)和 Kimi K2(月之暗面)也展现出强劲实力。

在多模态理解方面,图像处理能力取得显著进步,但在复杂逻辑推理任务中仍有提升空间。代码应用测试则表明,虽然模型在函数级任务中表现优异,但在真实项目开发中的应用能力仍需加强。

技术竞争加剧,评测体系持续进化

“方升”3.0的发布不仅是评测标准的更新,更是对行业发展方向的引导。信通院表示,未来将持续加强评测技术研究,提升评测结果的权威性与公信力,为人工智能前沿创新和新型工业化发展提供坚实支撑。

在AI技术快速演进的今天,一个科学、系统、开放的评测体系,将成为推动技术落地和产业变革的关键力量。