AI新纪元：GPT-5与Claude 4.1逼近人类专家水平

近日，OpenAI 推出了一个全新的评估体系——GDPval，旨在衡量AI模型在经济价值创造方面的实际表现。这项测试覆盖了对美国GDP贡献最大的九大行业，包括医疗、金融、制造和政府等，共涉及44种职业，从软件工程师到护士，再到记者，几乎涵盖了各类知识型岗位。

测试的核心目标，是看看像 GPT-5 和 Anthropic 的 Claude Opus4.1 这样的AI模型，是否能在专业任务中与人类专家一较高下。结果显示，AI的能力正在迅速提升。

测试机制：让AI与专家同台竞技

GDPval 的测试方法颇具创意：它邀请各行业专业人士，对AI生成的报告与人类同行的成果进行盲评，并选出更优者。例如，在一项投资银行家的任务中，AI和人类分别撰写关于“最后一公里配送”行业的竞争分析报告，再由评审打分。

在这些任务中，GPT-5-high 版本的表现令人印象深刻，在44个职业中，有40.6%的任务其生成的内容优于或与人类专家持平。而Claude Opus4.1的得分更高，达到49%。

OpenAI 指出，Claude 的高分部分归功于其出色的图表生成能力，这说明在专业工作中，表达形式和内容质量同样重要。

AI不会立刻取代人类，但工作方式正在改变

尽管测试结果令人振奋，OpenAI 也明确表示，目前的GDPval测试仅覆盖了人类工作中的一小部分任务，远非全部。因此，AI虽然在某些任务上已经接近专家水平，但还远未达到全面替代人类的程度。

正如 OpenAI 首席经济学家 亚伦・查特吉 所言，AI的意义不在于取代，而在于增强。它可以帮助专业人士节省时间，将精力集中在更高价值的创造性与决策性任务上。

展望未来：更全面的AI能力评估即将上线

OpenAI 表示，GDPval 目前只是第一代测试（v0），未来将推出更全面的版本，涵盖更多行业、更多类型的工作流程，甚至包括实时互动与协作任务。他们希望这一系列测试能够成为衡量AI技术进展的重要标尺。

🌟 划重点总结：
– OpenAI 发布 GDPval 基准测试，评估 AI 在多个行业中的表现。
– GPT-5 在40.6%的任务中表现优于或持平于人类专家，Claude Opus4.1 达到49%。
– AI尚未能全面替代人类，但已在部分专业任务中展现出接近人类水平的能力。
– OpenAI 计划扩展测试范围，以更全面地反映 AI 在真实工作中的潜力。

AI新纪元：GPT-5与Claude 4.1逼近人类专家水平

测试机制：让AI与专家同台竞技

AI不会立刻取代人类，但工作方式正在改变

展望未来：更全面的AI能力评估即将上线

谁才是真正的“代码实干家”？OpenClaw最新AI编码Agent实战排行榜揭晓

智慧农业迈入新纪元：中国农大发布神农大模型3.0

高通亮剑云端：AI芯片新贵能否改写英伟达霸权？

前政要入局AI争霸：OpenAI挖角英国前财长，全球“主权AI”争夺战升温

阿里豪赌AI未来：五年冲刺千亿美金云与AI收入，全栈自研已落地生根

2028年，AI将比你更像“人”？DeepMind联合创始人给出惊人时间表

测试机制：让AI与专家同台竞技

AI不会立刻取代人类，但工作方式正在改变

展望未来：更全面的AI能力评估即将上线

类似文章