Claude Opus 4.8 实测：比智商更重要的是，它终于会对你说“我不确定”

Anthropic 今天正式放出了 Claude Opus 4.8。跑分照例又涨了一波，但真正让我把默认模型切过去的，不是那些榜单数字，而是一个很多人没注意到的改变。

先快速看一眼数据

官方放出的成绩很亮眼，这里挑几个重点说：

SWE-Bench Pro：69.2%，比 4.7 版本的 64.3% 明显提升，也超过了 GPT-5.5（58.6%）和 Gemini 3.1 Pro（54.2%）。
Computer use（OSWorld-Verified）：83.4%，在操作真实界面这块依然是天花板。
知识工作（GDPval-AA）：1890 分，GPT-5.5 是 1769。
推理能力（Humanity’s Last Exam）：无工具 49.8%，有工具 57.9%，目前排在第一。
Terminal-Bench 2.1：74.6%，虽然比上一代的 66.1% 进步很大，但 GPT-5.5 是 78.2%，这一项并没有拿第一。

说到底，选模型不是只看总分，而是要看它适不适合你具体干的活。

Opus 4.8 最让我觉得不一样的地方，是它对代码缺陷的“敏感度”比 4.7 提升了大约 **4 倍。它不再像以前那样，把有问题的代码直接交给你，而是会主动说“这里我可能搞错了”。

这个变化听起来很小，但对开发者来说至关重要。

以前用 AI 写代码，最大的痛点从来都不是“它不够聪明”，而是“它出了错却不告诉你”。你让模型写一个函数，它写得又快又漂亮，看起来毫无问题，结果里面藏着一个微妙的边界条件错误。等你发现的时候，代码已经在生产环境里了。

现在 Opus 4.8 的做法是：

以前： 写完一个看起来很干净的函数，里面藏着边界条件的 Bug，但它什么也不说。最后你在生产环境踩了坑。

现在： 写完同一个函数，它会加一句“这里有个边界情况我不太确定——最好确认一下输入不会为空”，或者直接告诉你“你的方案有个漏洞”。

这种“校准过的诚实”，比多考几分重要得多。当你把 Claude 当成一个能独立干活的同事时，敢说“我不确定”的模型，才是你真的敢托付任务的模型。

Dynamic Workflows（Claude Code 研究预览）
可以并行派出数百个子代理处理大型任务，比如一次性迁移几十万行代码的重构工作。
Effort control（claude.ai 和 Cowork）
你可以手动选择“动脑程度”。调高一点，它会想得更深；调低一点，出答案更快。速度和质量的权衡权回到了你手里。
Messages API 支持在数组中间插入 system 消息
在长时间任务中，你可以中途插入新的系统指令，而且不会破坏已有的 Prompt 缓存。如果你在做长周期运行的 Agent，应该能立刻 get 到这个改动有多香。

普通版：输入 $5 / 百万 token，输出 $25 / 百万 token，和 4.7 完全一致。
Fast 模式：输入 $10 / 百万 token，输出 $50 / 百万 token。比上一版 Fast 便宜了 3 倍，而且用的还是完整的 Opus，不是缩水版模型。

Databricks 那边也给了一个数据：在他们的工作负载上，4.8 比 4.7 的 token 成本低了 61%，因为它用工具更高效，执行的步骤也更少。

模型 ID 是 claude-opus-4-8，今天开始各大平台都能直接调用。

未来 Agent 的护城河不是谁的 IQ 更高，而是谁更诚实。一个会在不确定时主动提醒你的模型，才值得你把活真正交给它。Opus 4.8 这次最大的升级，恰恰就在这里。