Claude Opus 4.8 实测:比智商更重要的是,它终于会对你说“我不确定”

Anthropic 今天正式放出了 Claude Opus 4.8。跑分照例又涨了一波,但真正让我把默认模型切过去的,不是那些榜单数字,而是一个很多人没注意到的改变。

先快速看一眼数据

官方放出的成绩很亮眼,这里挑几个重点说:

  • SWE-Bench Pro:69.2%,比 4.7 版本的 64.3% 明显提升,也超过了 GPT-5.5(58.6%)和 Gemini 3.1 Pro(54.2%)。
  • Computer use(OSWorld-Verified):83.4%,在操作真实界面这块依然是天花板。
  • 知识工作(GDPval-AA):1890 分,GPT-5.5 是 1769。
  • 推理能力(Humanity’s Last Exam):无工具 49.8%,有工具 57.9%,目前排在第一。
  • Terminal-Bench 2.1:74.6%,虽然比上一代的 66.1% 进步很大,但 GPT-5.5 是 78.2%,这一项并没有拿第一。

说到底,选模型不是只看总分,而是要看它适不适合你具体干的活。

真正改变干活的,是这个特性

Opus 4.8 最让我觉得不一样的地方,是它对代码缺陷的“敏感度”比 4.7 提升了大约 **4 倍。它不再像以前那样,把有问题的代码直接交给你,而是会主动说“这里我可能搞错了”。

这个变化听起来很小,但对开发者来说至关重要。

以前用 AI 写代码,最大的痛点从来都不是“它不够聪明”,而是“它出了错却不告诉你”。你让模型写一个函数,它写得又快又漂亮,看起来毫无问题,结果里面藏着一个微妙的边界条件错误。等你发现的时候,代码已经在生产环境里了。

现在 Opus 4.8 的做法是:

以前: 写完一个看起来很干净的函数,里面藏着边界条件的 Bug,但它什么也不说。最后你在生产环境踩了坑。

现在: 写完同一个函数,它会加一句“这里有个边界情况我不太确定——最好确认一下输入不会为空”,或者直接告诉你“你的方案有个漏洞”。

这种“校准过的诚实”,比多考几分重要得多。当你把 Claude 当成一个能独立干活的同事时,敢说“我不确定”的模型,才是你真的敢托付任务的模型。

另外三个值得关注的更新

  1. Dynamic Workflows(Claude Code 研究预览)
    可以并行派出数百个子代理处理大型任务,比如一次性迁移几十万行代码的重构工作。

  2. Effort control(claude.ai 和 Cowork)
    你可以手动选择“动脑程度”。调高一点,它会想得更深;调低一点,出答案更快。速度和质量的权衡权回到了你手里。

  3. Messages API 支持在数组中间插入 system 消息
    在长时间任务中,你可以中途插入新的系统指令,而且不会破坏已有的 Prompt 缓存。如果你在做长周期运行的 Agent,应该能立刻 get 到这个改动有多香。

价格没变,甚至还能更省

  • 普通版:输入 $5 / 百万 token,输出 $25 / 百万 token,和 4.7 完全一致。
  • Fast 模式:输入 $10 / 百万 token,输出 $50 / 百万 token。比上一版 Fast 便宜了 3 倍,而且用的还是完整的 Opus,不是缩水版模型。

Databricks 那边也给了一个数据:在他们的工作负载上,4.8 比 4.7 的 token 成本低了 61%,因为它用工具更高效,执行的步骤也更少。

模型 ID 是 claude-opus-4-8,今天开始各大平台都能直接调用。

我的看法

未来 Agent 的护城河不是谁的 IQ 更高,而是谁更诚实。一个会在不确定时主动提醒你的模型,才值得你把活真正交给它。Opus 4.8 这次最大的升级,恰恰就在这里。

类似文章