Claude Opus 4.8 实测:比智商更重要的是,它终于会对你说“我不确定”
Anthropic 今天正式放出了 Claude Opus 4.8。跑分照例又涨了一波,但真正让我把默认模型切过去的,不是那些榜单数字,而是一个很多人没注意到的改变。
先快速看一眼数据
官方放出的成绩很亮眼,这里挑几个重点说:
- SWE-Bench Pro:69.2%,比 4.7 版本的 64.3% 明显提升,也超过了 GPT-5.5(58.6%)和 Gemini 3.1 Pro(54.2%)。
- Computer use(OSWorld-Verified):83.4%,在操作真实界面这块依然是天花板。
- 知识工作(GDPval-AA):1890 分,GPT-5.5 是 1769。
- 推理能力(Humanity’s Last Exam):无工具 49.8%,有工具 57.9%,目前排在第一。
- Terminal-Bench 2.1:74.6%,虽然比上一代的 66.1% 进步很大,但 GPT-5.5 是 78.2%,这一项并没有拿第一。
说到底,选模型不是只看总分,而是要看它适不适合你具体干的活。
真正改变干活的,是这个特性
Opus 4.8 最让我觉得不一样的地方,是它对代码缺陷的“敏感度”比 4.7 提升了大约 **4 倍。它不再像以前那样,把有问题的代码直接交给你,而是会主动说“这里我可能搞错了”。
这个变化听起来很小,但对开发者来说至关重要。
以前用 AI 写代码,最大的痛点从来都不是“它不够聪明”,而是“它出了错却不告诉你”。你让模型写一个函数,它写得又快又漂亮,看起来毫无问题,结果里面藏着一个微妙的边界条件错误。等你发现的时候,代码已经在生产环境里了。
现在 Opus 4.8 的做法是:
以前: 写完一个看起来很干净的函数,里面藏着边界条件的 Bug,但它什么也不说。最后你在生产环境踩了坑。
现在: 写完同一个函数,它会加一句“这里有个边界情况我不太确定——最好确认一下输入不会为空”,或者直接告诉你“你的方案有个漏洞”。
这种“校准过的诚实”,比多考几分重要得多。当你把 Claude 当成一个能独立干活的同事时,敢说“我不确定”的模型,才是你真的敢托付任务的模型。
另外三个值得关注的更新
-
Dynamic Workflows(Claude Code 研究预览)
可以并行派出数百个子代理处理大型任务,比如一次性迁移几十万行代码的重构工作。 -
Effort control(claude.ai 和 Cowork)
你可以手动选择“动脑程度”。调高一点,它会想得更深;调低一点,出答案更快。速度和质量的权衡权回到了你手里。 -
Messages API 支持在数组中间插入
system消息
在长时间任务中,你可以中途插入新的系统指令,而且不会破坏已有的 Prompt 缓存。如果你在做长周期运行的 Agent,应该能立刻 get 到这个改动有多香。
价格没变,甚至还能更省
- 普通版:输入 $5 / 百万 token,输出 $25 / 百万 token,和 4.7 完全一致。
- Fast 模式:输入 $10 / 百万 token,输出 $50 / 百万 token。比上一版 Fast 便宜了 3 倍,而且用的还是完整的 Opus,不是缩水版模型。
Databricks 那边也给了一个数据:在他们的工作负载上,4.8 比 4.7 的 token 成本低了 61%,因为它用工具更高效,执行的步骤也更少。
模型 ID 是 claude-opus-4-8,今天开始各大平台都能直接调用。
我的看法
未来 Agent 的护城河不是谁的 IQ 更高,而是谁更诚实。一个会在不确定时主动提醒你的模型,才值得你把活真正交给它。Opus 4.8 这次最大的升级,恰恰就在这里。
