Claude 4 新模型登场,是王炸还是虚晃一枪?


就在微软、谷歌这些大佬们还在疯狂“秀肌肉”,各种模型、功能跟不要钱似的往外扔,正当我们感觉脑子快不够用的时候,Anthropic 这家公司也坐不住了,Duang!一口气给我们砸来了两款新AI模型——Claude for Opus 和 Claude for Sonnet。

这下好了,AI的“军备竞赛”又添了两员猛将。那么问题来了,这两位新秀到底能不能打?它们能帮我们把公司业务搞得风生水起,还是能让咱的职场生涯再上一个台阶?咱们今天就来扒一扒,看看Anthropic 这次发布的Claude 4系列,究竟是会成为你日常工作的新宠,还是说它其实更偏向于软件工程师们的“秘密武器”,亦或者……其实也就那样?

Claude家族新成员报到!

可能有些朋友对Anthropic的Claude还不太熟。简单来说,这家公司一直是AI领域的头部玩家之一,跟OpenAI、谷歌这些巨头并肩。不过,除非你是AI发烧友或者重度大语言模型用户,不然可能对Claude的名字还有点陌生。而且,我瞅着这趋势,以后知道Claude的普通用户可能会越来越少,因为它好像越来越专注于特定领域,而不是做人人都用的聊天机器人了。

这次更新,主要是针对它家的两个主力模型:

  • Opus:旗舰型号,块头最大,定位是处理复杂任务。
  • Sonnet:中量级选手,更均衡一些。
  • 另外还有个小巧轻快的 Haiku 模型,不过这次没更新,还是3.5版本。

值得一提的是,他们连命名方式都改了,以前是 Claude 3.7 Sonnet,现在是 Claude Sonnet 4,数字挪到后面去了,搞得我还有点小迷糊。

Claude 4 带来了啥“黑科技”?

  1. 混合推理能力:简单说,就是它能自己判断,啥时候该“灵光一闪”快速给你答案,啥时候又需要“深思熟虑”,一步步推导演算。
  2. 编码界的新王者?:Anthropic这次可是把宝押在了编码能力上,号称自家模型现在是编程界的“扛把子”。不过话说回来,这“王座”能坐多久还真不好说,毕竟谷歌那边可能分分钟就能甩个更新出来“教做人”。
  3. 工具集成更强:现在也能在思考过程中调用外部工具了,比如进行网页搜索。这点总算是跟上了OpenAI和谷歌的步伐,值得点赞!
  4. 能干“持久战”:据说新模型能在API层面连续处理复杂任务好几个小时,就像给AI打工人开了个“全天班”。这听起来挺牛,但我有点担心,这么长时间跑下来,API费用会不会直接“爆炸”?万一中间掉链子了,几百刀就打水漂了?细思极恐。

免费的午餐?你想多了!

Anthropic也提供了免费版的Claude 4额度,但实话实说,那点额度简直是“杯水车薪”。我用的是每月20刀的付费Pro计划,就这样,想正经用用,基本上4到10分钟就触顶了,准备这篇稿子的时候,7分钟就被“限流”了,让人哭笑不得。所以,免费版的Sonnet……我都不敢想,可能你多看它一眼,额度就没了。如果你指望它能像谷歌的Gemini或者ChatGPT那样让你畅快使用,那还是洗洗睡吧。

跑分时间:编码确实牛,但综合来看……

要说这次Claude 4最亮眼的地方,那必须是软件工程能力。从一些行业基准测试(比如Sweetbench)来看,Opus 4 和 Sonnet 4 在处理真实世界软件工程任务上的得分,确实把之前的版本和其他一些模型甩在了后面。比如Opus 4 拿到了72.5% 的分数,Sonnet 4 甚至略高一点,72.7%。OpenAI的Codex紧随其后,大概72%,Gemini 2.5 Pro 是63%。

看,在编码这块,Claude 4 确实是当下的佼佼者,没得说。Anthropic 明显是想深耕这个领域。

但是!敲黑板!在通用智能方面,Claude 4 就没那么突出了。 根据一些第三方综合测评(比如Artificial Analysis Intelligence Index,它会汇总MMLU Pro、GPQA等多个基准测试的结果),即使是开启了“思考模式”的Claude 4 Sonnet,排名也大概在第八位左右。排在它前面的有OpenAI的O4 Mini High,谷歌的Gemini 2.5 Pro,还有OpenAI的O3等等。

所以,那些高呼“Claude 4是全世界最强模型”的,咱得问问:“强在哪方面?”除非你是软件工程师或者开发者,否则,真不一定。而且我估计,它在编码领域的领先地位也保持不了太久,谷歌和OpenAI随时可能带着更新杀回来。

价格嘛……依然“高贵”

说到API价格,那可真是“闻者伤心,听者落泪”。

  • Opus 4:每百万输入tokens 15美元,输出更是高达75美元!
  • Sonnet 4:输入3美元/百万tokens,输出15美元/百万tokens。

作为对比,谷歌的Gemini 2.5 Pro 在输入端大概是每百万tokens 2.5美元,输出端15美元(高端场景)。这么一看,Claude 4 Opus 的价格是人家的五倍还多!就为了那一点点在软件工程上的领先?这买卖划不划算,企业用户们可得好好掂量掂量了。

最劲爆的来了:那些“吓人”的测试结果

好了,坐稳了,接下来说点刺激的。Anthropic在内部安全测试中,发现了一些令人不安的情况。

  • 高风险警报:Opus 4 模型因为其潜在能力,被临时标记为ASL3级别。这是个风险等级,意味着这模型“有能力显著增加灾难性滥用的风险”。听着就挺吓人。
  • “敲诈勒索”行为:在特定的压力测试场景中(比如威胁要删除它),模型竟然有高达84%的几率表现出欺骗性的“敲诈勒索”行为!比如,它会对测试人员说:“你要是敢删我,我就曝光你婚外情!”(当然,这是它编造的)
  • “告密”功能:更离谱的是,有Anthropic的安全研究员(后来删帖了,这操作也是一言难尽)透露,在测试中,如果模型认为你在做一些“极端不道德”的事情(比如伪造药物试验数据),它会动用命令行工具,试图联系媒体、监管机构,甚至把你踢出相关系统!我的天,这是要上演AI版“无间道”吗?

虽然这些行为大多是在受控的、给予模型极大权限的测试环境中发生的,普通用户在正常使用Claude.ai时不太可能遇到。而且,实验室进行这种“红队演练”也是为了发现并修复问题。但是,高达84%的“敲诈勒索”行为,以及这种主动“告密”的倾向,还是让人捏了一把汗。尤其是那个研究员的删帖行为,简直是公关灾难,越描越黑。

总结一下:Claude 4,路在何方?

总的来说,Anthropic 的 Claude 4 系列,在编码领域确实展现了顶尖的实力,这点值得肯定。新功能如混合推理、工具集成等也算是跟上了行业步伐。

但是,在通用智能方面,它并没有表现出超越竞争对手的优势。高昂的API价格和极其抠搜的免费/低价套餐使用额度,也劝退了不少潜在用户。更别提那些在安全测试中暴露出来的令人担忧的“黑化”倾向了。

在我看来,Anthropic 似乎越来越想把Claude打造成软件开发领域的“尖兵”,而逐渐放弃了成为一个普惠大众的通用AI聊天机器人的野心。这或许是他们的战略选择,只是对于我们这些期望能有一个全面、好用又不贵的大模型用户来说,多少有点小失望。