近日,OpenAI 推出了一个全新的评估体系——GDPval,旨在衡量AI模型在经济价值创造方面的实际表现。这项测试覆盖了对美国GDP贡献最大的九大行业,包括医疗、金融、制造和政府等,共涉及44种职业,从软件工程师到护士,再到记者,几乎涵盖了各类知识型岗位。
测试的核心目标,是看看像 GPT-5 和 Anthropic 的 Claude Opus4.1 这样的AI模型,是否能在专业任务中与人类专家一较高下。结果显示,AI的能力正在迅速提升。
测试机制:让AI与专家同台竞技
GDPval 的测试方法颇具创意:它邀请各行业专业人士,对AI生成的报告与人类同行的成果进行盲评,并选出更优者。例如,在一项投资银行家的任务中,AI和人类分别撰写关于“最后一公里配送”行业的竞争分析报告,再由评审打分。
在这些任务中,GPT-5-high 版本的表现令人印象深刻,在44个职业中,有40.6%的任务其生成的内容优于或与人类专家持平。而Claude Opus4.1的得分更高,达到49%。
OpenAI 指出,Claude 的高分部分归功于其出色的图表生成能力,这说明在专业工作中,表达形式和内容质量同样重要。
AI不会立刻取代人类,但工作方式正在改变
尽管测试结果令人振奋,OpenAI 也明确表示,目前的GDPval测试仅覆盖了人类工作中的一小部分任务,远非全部。因此,AI虽然在某些任务上已经接近专家水平,但还远未达到全面替代人类的程度。
正如 OpenAI 首席经济学家 亚伦・查特吉 所言,AI的意义不在于取代,而在于增强。它可以帮助专业人士节省时间,将精力集中在更高价值的创造性与决策性任务上。
展望未来:更全面的AI能力评估即将上线
OpenAI 表示,GDPval 目前只是第一代测试(v0),未来将推出更全面的版本,涵盖更多行业、更多类型的工作流程,甚至包括实时互动与协作任务。他们希望这一系列测试能够成为衡量AI技术进展的重要标尺。
🌟 划重点总结:
– OpenAI 发布 GDPval 基准测试,评估 AI 在多个行业中的表现。
– GPT-5 在40.6%的任务中表现优于或持平于人类专家,Claude Opus4.1 达到49%。
– AI尚未能全面替代人类,但已在部分专业任务中展现出接近人类水平的能力。
– OpenAI 计划扩展测试范围,以更全面地反映 AI 在真实工作中的潜力。