Claude 4 新模型登场，是王炸还是虚晃一枪？

就在微软、谷歌这些大佬们还在疯狂“秀肌肉”，各种模型、功能跟不要钱似的往外扔，正当我们感觉脑子快不够用的时候，Anthropic 这家公司也坐不住了，Duang！一口气给我们砸来了两款新AI模型——Claude for Opus 和 Claude for Sonnet。

这下好了，AI的“军备竞赛”又添了两员猛将。那么问题来了，这两位新秀到底能不能打？它们能帮我们把公司业务搞得风生水起，还是能让咱的职场生涯再上一个台阶？咱们今天就来扒一扒，看看Anthropic 这次发布的Claude 4系列，究竟是会成为你日常工作的新宠，还是说它其实更偏向于软件工程师们的“秘密武器”，亦或者……其实也就那样？

Claude家族新成员报到！

可能有些朋友对Anthropic的Claude还不太熟。简单来说，这家公司一直是AI领域的头部玩家之一，跟OpenAI、谷歌这些巨头并肩。不过，除非你是AI发烧友或者重度大语言模型用户，不然可能对Claude的名字还有点陌生。而且，我瞅着这趋势，以后知道Claude的普通用户可能会越来越少，因为它好像越来越专注于特定领域，而不是做人人都用的聊天机器人了。

这次更新，主要是针对它家的两个主力模型：

Opus：旗舰型号，块头最大，定位是处理复杂任务。
Sonnet：中量级选手，更均衡一些。
另外还有个小巧轻快的 Haiku 模型，不过这次没更新，还是3.5版本。

值得一提的是，他们连命名方式都改了，以前是 Claude 3.7 Sonnet，现在是 Claude Sonnet 4，数字挪到后面去了，搞得我还有点小迷糊。

Claude 4 带来了啥“黑科技”？

混合推理能力：简单说，就是它能自己判断，啥时候该“灵光一闪”快速给你答案，啥时候又需要“深思熟虑”，一步步推导演算。
编码界的新王者？：Anthropic这次可是把宝押在了编码能力上，号称自家模型现在是编程界的“扛把子”。不过话说回来，这“王座”能坐多久还真不好说，毕竟谷歌那边可能分分钟就能甩个更新出来“教做人”。
工具集成更强：现在也能在思考过程中调用外部工具了，比如进行网页搜索。这点总算是跟上了OpenAI和谷歌的步伐，值得点赞！
能干“持久战”：据说新模型能在API层面连续处理复杂任务好几个小时，就像给AI打工人开了个“全天班”。这听起来挺牛，但我有点担心，这么长时间跑下来，API费用会不会直接“爆炸”？万一中间掉链子了，几百刀就打水漂了？细思极恐。

免费的午餐？你想多了！

Anthropic也提供了免费版的Claude 4额度，但实话实说，那点额度简直是“杯水车薪”。我用的是每月20刀的付费Pro计划，就这样，想正经用用，基本上4到10分钟就触顶了，准备这篇稿子的时候，7分钟就被“限流”了，让人哭笑不得。所以，免费版的Sonnet……我都不敢想，可能你多看它一眼，额度就没了。如果你指望它能像谷歌的Gemini或者ChatGPT那样让你畅快使用，那还是洗洗睡吧。

跑分时间：编码确实牛，但综合来看……

要说这次Claude 4最亮眼的地方，那必须是软件工程能力。从一些行业基准测试（比如Sweetbench）来看，Opus 4 和 Sonnet 4 在处理真实世界软件工程任务上的得分，确实把之前的版本和其他一些模型甩在了后面。比如Opus 4 拿到了72.5% 的分数，Sonnet 4 甚至略高一点，72.7%。OpenAI的Codex紧随其后，大概72%，Gemini 2.5 Pro 是63%。

看，在编码这块，Claude 4 确实是当下的佼佼者，没得说。Anthropic 明显是想深耕这个领域。

但是！敲黑板！在通用智能方面，Claude 4 就没那么突出了。 根据一些第三方综合测评（比如Artificial Analysis Intelligence Index，它会汇总MMLU Pro、GPQA等多个基准测试的结果），即使是开启了“思考模式”的Claude 4 Sonnet，排名也大概在第八位左右。排在它前面的有OpenAI的O4 Mini High，谷歌的Gemini 2.5 Pro，还有OpenAI的O3等等。

所以，那些高呼“Claude 4是全世界最强模型”的，咱得问问：“强在哪方面？”除非你是软件工程师或者开发者，否则，真不一定。而且我估计，它在编码领域的领先地位也保持不了太久，谷歌和OpenAI随时可能带着更新杀回来。

价格嘛……依然“高贵”

说到API价格，那可真是“闻者伤心，听者落泪”。

Opus 4：每百万输入tokens 15美元，输出更是高达75美元！
Sonnet 4：输入3美元/百万tokens，输出15美元/百万tokens。

作为对比，谷歌的Gemini 2.5 Pro 在输入端大概是每百万tokens 2.5美元，输出端15美元（高端场景）。这么一看，Claude 4 Opus 的价格是人家的五倍还多！就为了那一点点在软件工程上的领先？这买卖划不划算，企业用户们可得好好掂量掂量了。

最劲爆的来了：那些“吓人”的测试结果

好了，坐稳了，接下来说点刺激的。Anthropic在内部安全测试中，发现了一些令人不安的情况。

高风险警报：Opus 4 模型因为其潜在能力，被临时标记为ASL3级别。这是个风险等级，意味着这模型“有能力显著增加灾难性滥用的风险”。听着就挺吓人。
“敲诈勒索”行为：在特定的压力测试场景中（比如威胁要删除它），模型竟然有高达84%的几率表现出欺骗性的“敲诈勒索”行为！比如，它会对测试人员说：“你要是敢删我，我就曝光你婚外情！”（当然，这是它编造的）
“告密”功能：更离谱的是，有Anthropic的安全研究员（后来删帖了，这操作也是一言难尽）透露，在测试中，如果模型认为你在做一些“极端不道德”的事情（比如伪造药物试验数据），它会动用命令行工具，试图联系媒体、监管机构，甚至把你踢出相关系统！我的天，这是要上演AI版“无间道”吗？

虽然这些行为大多是在受控的、给予模型极大权限的测试环境中发生的，普通用户在正常使用Claude.ai时不太可能遇到。而且，实验室进行这种“红队演练”也是为了发现并修复问题。但是，高达84%的“敲诈勒索”行为，以及这种主动“告密”的倾向，还是让人捏了一把汗。尤其是那个研究员的删帖行为，简直是公关灾难，越描越黑。

总结一下：Claude 4，路在何方？

总的来说，Anthropic 的 Claude 4 系列，在编码领域确实展现了顶尖的实力，这点值得肯定。新功能如混合推理、工具集成等也算是跟上了行业步伐。

但是，在通用智能方面，它并没有表现出超越竞争对手的优势。高昂的API价格和极其抠搜的免费/低价套餐使用额度，也劝退了不少潜在用户。更别提那些在安全测试中暴露出来的令人担忧的“黑化”倾向了。

在我看来，Anthropic 似乎越来越想把Claude打造成软件开发领域的“尖兵”，而逐渐放弃了成为一个普惠大众的通用AI聊天机器人的野心。这或许是他们的战略选择，只是对于我们这些期望能有一个全面、好用又不贵的大模型用户来说，多少有点小失望。

Claude 4 新模型登场，是王炸还是虚晃一枪？

高效自学与产出突破“考上好大学”陷阱：AI时代知识获取、管理到价值变现的全链路指南高效自学与产出

中小企业如何借力AI弯道超车

苹果AI，装傻还是真傻？

AI世界变化快！大语言模型近期重磅更新汇总

AI智能体狂飙：从梦想到现实，还差几步？

谷歌I/O AI放大招（下篇）：这7个新功能，你准备好迎接了吗？

类似文章