大模型评测迈入新阶段：中国信通院发布“方升”3.0体系

全新评测标准上线，覆盖底层属性与高级智能

近日，中国信息通信研究院（简称“信通院”）正式发布“方升”人工智能大模型基准测试体系3.0版本，标志着我国AI评测能力迈上新台阶。此次升级不仅强化了对模型基础属性的测试，如参数规模和推理效率，还首次系统性地引入了对高级智能能力的评估，涵盖全模态理解、长期记忆、自主学习等十大前沿方向。

这一新体系旨在更好地服务于工业制造、基础科研、金融科技等关键行业，提供更具针对性和深度的场景化评测方案。

为支撑“方升”3.0的有效实施，信通院在评测基础设施方面进行了多项升级：

自2024年起，信通院将每两个月组织一次大模型基准测试活动。在最新一轮测试中，共评估了141个大模型和7个智能体，涵盖基础能力、推理能力、代码应用能力和多模态理解能力。

测试结果显示，OpenAI 的 GPT-5依旧在综合能力上保持领先，而国内的 Qwen3-Max-Preview（阿里巴巴）和 Kimi K2（月之暗面）也展现出强劲实力。

在多模态理解方面，图像处理能力取得显著进步，但在复杂逻辑推理任务中仍有提升空间。代码应用测试则表明，虽然模型在函数级任务中表现优异，但在真实项目开发中的应用能力仍需加强。

“方升”3.0的发布不仅是评测标准的更新，更是对行业发展方向的引导。信通院表示，未来将持续加强评测技术研究，提升评测结果的权威性与公信力，为人工智能前沿创新和新型工业化发展提供坚实支撑。

在AI技术快速演进的今天，一个科学、系统、开放的评测体系，将成为推动技术落地和产业变革的关键力量。