AI终于学会“动手干活”了:GPT-5.4首次在真实桌面环境中击败人类操作水平
🖥️ 它不是在“说”怎么操作,而是在“做”
过去几年,AI Agent总被调侃为“纸上谈兵型员工”:能写出完美Python脚本,却连自己打开Excel都得靠开发者写好接口;能规划整套营销流程,但无法自主登录CRM系统改一条客户备注。
GPT-5.4打破了这堵墙。它通过实时分析屏幕截图(无需OCR预处理)、精准建模鼠标轨迹、模拟键位组合与系统级快捷键,在原生GUI环境中执行操作——不是调用os.system(),而是真的把光标移到“设置”图标上,双击,滑动到“壁纸”选项,点击“从文件选择”……一气呵成。
权威基准测试 OSWorld-Verified 给出了硬核答案:
✅ GPT-5.4 桌面任务成功率:75.0%
✅ 人类用户平均表现:72.4%
✅ GPT-5.2(半年前最强版):47.3%
这是AI在通用人机交互能力上,首次稳定超越普通人类用户——不是在某个垂直场景,而是在涵盖日历授权、跨平台APP唤起(如小宇宙播客)、终端命令链执行、甚至计算器APP内逐键输入求解等127项日常任务的综合评估中。
🛠️ 实测:你的“数字替身”,今天就能上岗
目前,GPT-5.4已向所有网页版与Codex用户开放。我们亲测了几个典型场景:
- 权限级操作:让它“把桌面壁纸换成我相册里最新一张风景照”——它自动打开照片库、识别时间戳、选中图片、拖入设置界面并确认;
- 深度应用控制:指令“在小宇宙中搜索‘AI伦理’,订阅前三档播客,并跳转到最新一期播放”——它唤起App、输入关键词、解析结果页DOM结构、模拟点击订阅按钮、再精准定位播放控件;
- 系统级计算:不说“137×89等于多少”,而是“在Mac计算器里算出137×89,然后把结果复制进备忘录”——它真正在计算器UI里按键、读取显示、触发
Cmd+C,再切到Notes粘贴。
这不是“调用工具”,而是以像素为单位理解界面、以毫秒为单位协调动作。AI,第一次拥有了“手”。
🔗 为什么OpenClaw成了它的最佳拍档?
开源Agent框架 OpenClaw(GitHub Star超25万)本就以“拒绝幻觉、只干实事”著称。但此前,它严重依赖Hack式注入和脆弱的自动化桥接。GPT-5.4的出现,让OpenClaw实现了“去适配器化”跃迁:
| 能力维度 | GPT-5.4带来的改变 |
|---|---|
| 操控原生性 | 不再需要WebDriver或Accessibility API绕行,直接端到端GUI操作,稳定性提升3.2倍 |
| 长程记忆 | 100万Token上下文 → 可完整加载整份PDF财报+会议纪要+历史邮件,边读边执行“比对Q3营收变化并生成PPT摘要” |
| 成本效率 | Tool Search机制优化后,API Token消耗下降47%,7×24运行的月成本从$2,100降至$1,100 |
| 专业深度 | 在财务建模、法律条款比对、投资备忘录撰写等任务中,超越83%人类专家(基于Mercor AI双盲评估) |
简单说:OpenClaw + GPT-5.4 = 一个不用配置、不掉链子、能连续工作三天三夜还越干越准的“AI实习生”——而且它明天就能入职你家书房。
⚖️ 当AI开始胜任金领工作,我们该担心什么?
行业反应迅速而凝重:
“它的代码生成不是‘可用’,是‘交付即上线’——我在HyperWriteAI见过三个团队直接用它重构了内部CI流水线。”
——CEO Matt Shumer, HyperWriteAI“我们刚让它重写了某顶级律所的并购尽调清单模板。结果不仅逻辑更严密,还主动标注了7处跨境合规风险点——这些是原版漏掉的。”
——CEO Brenda, Mercor AI
OpenAI科学家Sebastien Bubeck更用一张坐标图隐喻这场质变:横轴是“任务抽象层级”,纵轴是“执行可靠性”,GPT-5.4的位置,已越过咨询公司合伙人、投行VP、资深律师构成的“人类能力包络线”。
这不是替代某个岗位,而是重定义“工作”的最小执行单元:从“写提示词→等结果”,进化到“下指令→看它操作→确认交付”。
2026年,AI叙事的分水岭已经立下——
不再问“它能写什么?”
而是问:“这件事,你还要亲手做吗?”
