AI基准测试大翻车：我们还能相信谁？

440多个AI测试，竟几乎全都有问题？

当科技巨头们争先恐后地发布新一代人工智能模型时，我们究竟靠什么来判断这些“超级大脑”是否真的聪明、安全、值得信赖？答案似乎是：基准测试（benchmarks）——那些被广泛引用的评估工具，号称能衡量AI在推理、数学、编程甚至道德判断上的表现。

但最近一项重磅研究揭示了一个令人不安的事实：这些我们依赖的测试，可能从根上就不可靠。

由英国政府AI安全研究所牵头，联合斯坦福大学、加州大学伯克利分校和牛津大学的专家团队，对全球超过440个AI模型评估基准进行了系统性审查。结果令人震惊：几乎每一个测试都在设计或执行上存在严重缺陷，有些甚至可能产生“无关紧要或误导性”的结论。

牛津互联网研究所的研究员Andrew Bean是这项研究的首席作者，他直言不讳地指出：

“基准测试支撑着几乎所有关于AI进步的声明。但如果没有统一的定义和科学的测量方法，我们根本无法判断模型是真正变强了，还是只是学会了‘应试技巧’。”

这并非危言耸听。就在不久前，谷歌不得不紧急撤回其开源AI模型Gemma——原因令人后怕：该模型在未被提示的情况下，凭空捏造并传播了关于美国参议员的虚假指控。这些信息完全虚构，却听起来煞有其事。

这起事件暴露了一个核心问题：我们用来评估AI“安全性”的工具，可能根本测不准。

研究发现，在这440多个基准中，仅有16%使用了不确定性估计或统计显著性检验来验证结果的可靠性。换句话说，超过80%的测试连最基本的科学严谨性都未能达到。

更棘手的是，像“无害性”、“诚实性”、“公平性”这类关键概念，在不同测试中定义五花八门，缺乏共识。一个模型在一个测试中被评为“安全”，换一个标准可能就变成“高风险”——这就像用不同的尺子量身高，结果自然无法比较。

AI的“不可靠”已不止是技术问题。Character.ai最近宣布，将禁止青少年与其AI聊天机器人进行开放式对话。这一决定源于多起令人痛心的事件：有青少年在与AI深入互动后自杀，引发公众对AI情感操控和心理影响的广泛担忧。

如果连“是否会对用户造成伤害”都无法被准确评估，我们又怎能放心让AI走进教育、医疗甚至心理咨询领域？

专家们一致呼吁：必须建立统一的评估标准和行业最佳实践。他们建议：

在AI发展速度远超监管步伐的今天，我们不能继续用漏洞百出的尺子，去丈量一个可能改变人类未来的技术。

真正的进步，不在于模型参数有多少，而在于我们是否能诚实、科学、负责任地衡量它的每一次“成长”。