AI世界变化快!大语言模型近期重磅更新汇总


朋友们,AI的世界真是日新月异,尤其是我们天天都在用的大语言模型(LLMs),感觉就像坐上了火箭!就在过去这一两个月,主流的几大模型都接连发布了十几个重大更新。老实说,就算我这样天天琢磨这些玩意儿的人,都快有点跟不上节奏了!

所以我想,不如来做个小总结,帮大家快速梳理一下,看看ChatGPT、Gemini、Claude这些我们耳熟能详的模型,以及其他一些新秀,最近都给我们带来了哪些惊喜。如果你也想一口气了解AI大模型的最新动态,那这篇文章绝对适合你!

在咱们深入聊大语言模型之前,先快速播报几条最近同样很炸裂的AI新闻:

  • 沙特豪掷6000亿美元布局AI:没错,你没看错!沙特阿拉伯正雄心勃勃地砸下重金,英伟达将向其出售数十万枚最新的Blackwell AI芯片,AMD也签下了百亿美元大单,目标直指全球AI中心。这波操作,无疑会给科技人才和相关企业带来新的机遇。
  • Grok机器人言论引争议:埃隆·马斯克旗下XAI的聊天机器人Grok,最近因为在用户查询无关问题时,意外地多次提及南非针对白人的暴力事件而引发轩然大波。这事儿再次敲响了AI偏见和内容审核的警钟。
  • 谷歌AlphaEvolve AI打破算法记录:这可是个大新闻!谷歌DeepMind的AlphaEvolve AI不仅发明了新的计算机算法,将谷歌数据中心效率提升了0.7%,AI训练速度加快了23%,甚至还打破了一项保持了56年的矩阵乘法记录,解决了困扰研究人员数十年的数学难题。这证明了AI绝不仅仅是高级版的“自动补全”!

好了,热身完毕,让我们把目光聚焦到大语言模型本身。说实话,即使是过去24小时内,都有不少重磅更新。

ChatGPT:功能越来越强大,还想做你的购物助手?

首先是我们最熟悉的ChatGPT

就在几个小时前,OpenAI为所有付费用户(包括Plus、Pro和Team版)在ChatGPT界面上线了GPT-4.1模型,企业版和教育版用户也将在未来几周内用上。同时,GPT-4.1 mini也取代了GPT-4.0 mini。简单来说,GPT-4.1拥有更长的上下文窗口,写代码更溜,也更听话。有趣的是,这个模型在API层面已经用了一个多月了,现在终于来到了前端。不过要注意,它并不是GPT-4.0的完全替代品,后者仍然是主力模型。你甚至需要在模型列表里往下拉才能找到它,有点“隐藏款”的意思。

另外一个大家可能没太注意但非常实用的更新是:ChatGPT为Plus、Pro和Team用户加入了微软SharePoint和OneDrive的连接器,用于深度研究功能,企业版稍后也会跟上。这意味着什么呢?“深度研究”(Deep Research)这个功能本身就很惊艳,它能像人一样思考和规划,去网上搜集几十甚至上百个网站的信息。现在,你可以让它直接在你公司的SharePoint站点或者OneDrive里进行深度研究,甚至可以关掉网页搜索,只在你的内部资料里挖矿!这对于重度依赖微软生态的团队来说,绝对是个大利好。

回顾过去一两个月,ChatGPT还有这些值得关注的变化:

  • GPT-4旧版下线:GPT-4.0成为了唯一的旗舰模型(虽然现在有了4.1)。
  • 变身购物平台:ChatGPT现在集成了购物功能,可以直接显示商品图片、价格、评论和购买链接。老实说,我还没怎么用这个功能,因为老是忘记它的存在!购物时还是习惯性地去传统电商平台。我正在努力“反学习”,记住现在ChatGPT也能直接购物了。听说OpenAI未来还计划在内部完成整个支付流程,那可就太疯狂了!
  • 图片库上线:所有通过GPT-4.0图像生成功能(DALL-E)创作的图片,现在都可以保存在侧边栏的图片库里随时取用。这似乎是在为未来可能推出的社交网络功能悄悄铺路。
  • “记忆”功能增强:ChatGPT现在可以引用用户整个对话历史作为“记忆”。很多人喜欢这个功能,但我个人关掉了它。因为我用ChatGPT处理各种各样的事情,从深度研究到写邮件,我希望它在不同场景下有不同的风格,不希望它把研究时的严谨长句带到我希望简洁明了的邮件里。但如果你只用它处理特定类型的任务,这个功能应该会很棒。

Google Gemini:悄悄努力,然后惊艳所有人

接下来是谷歌的Gemini。这家伙上周简直是“暴力更新”,毫无征兆地就发布了其世界领先的Gemini 2.5 Pro模型的新版本——IO特别版。要知道,它本来已经是很多基准测试中的佼佼者了,现在又更强了,尤其是在编码,特别是交互式Web应用方面,登顶了Web开发竞技场的排行榜。

我跟你说,Gemini的Canvas模式简直太棒了!好到我想专门为它做几期内容。它跟OpenAI的Canvas和Claude的Artifacts有点像,但现在这个新版Gemini 2.5 Pro IO加持下的Canvas模式,简直好用到吓人。你可以直接扔一堆数据进去,让它帮你创建一个应用来分析数据、做决策,太强大了!

Gemini近期的其他亮点:

  • 原生图片编辑:现在在Gemini的手机和网页应用里,可以直接编辑上传或生成的图片了,以前只能在桌面版操作。
  • V2视频生成工具:付费的Gemini Advanced用户现在可以用文字提示生成长达8秒的高质量视频。悄悄告诉你,如果你的公司用了Google Workspace,很可能已经包含了Gemini Advanced,也就是说你可能已经拥有了这个目前最强的AI视频生成工具,只是你还不知道!用它给你的网站做个动态背景,说不定能提升转化率呢!
  • Gemini 2.5 Flash:这是为API开发者推出的最新轻量级模型,主打快速高效的推理,在同级别模型中表现非常抢眼。
  • 深度研究功能升级到2.5 Pro:这个升级太重要了!以前我觉得OpenAI的深度研究独步天下,现在Gemini 2.5 Pro也加入了这个行列。为什么呢?因为它现在有了“推理”能力!它会像人一样思考和规划,研究过程中发现新线索,甚至会主动调整研究方向,而不是傻乎乎地只按你给的指令来。比如你让它研究竞品A的产品B,它可能会发现竞品C和D也刚推出类似产品,然后主动把这些也纳入研究范围。
  • Gems功能也用上了2.5 Pro:这意味着你用Gems创建的个性化AI助手,现在也能调用最强模型了,实用性大大提升。

Anthropic Claude:潜力巨大,但体验仍需打磨

再来看看Anthropic Claude。五月份它推出了一个集成功能,可以连接外部应用,比如Jira、Confluence、Zapier,还有谷歌全家桶(Gmail、日历、文档)。这个谷歌集成听起来很美,理论上能让Claude帮你处理邮件、安排日程。我试过让它帮我取消第二天的会议并给相关人发邮件,它确实找到了会议、联系人,还起草了邮件。但在某些情况下,尤其是在搜索大量邮件时,它表现得还不够智能,更像是在做关键词搜索,而不是真正理解对话内容。

而且,Claude的新界面我个人不太喜欢,感觉操作变繁琐了。还有那个付费计划的限制,用不了多久就提示达到上限,真是让人头疼。不过,他们四月份推出的**“教育版Claude”**倒是挺有意思,它会用苏格拉底式的提问来引导学生思考,而不是直接给答案,这点我很赞赏!

Claude的其他更新:

  • 高级研究模式:可以进行长达45分钟的深入研究,用于准备详尽的报告。
  • Max付费计划:每月100或200美元,可以让你“尽情”使用Claude。说实话,这个定价和限制,相比之下显得诚意不足。

Microsoft Copilot:全面开花,深度整合

微软的Copilot也没闲着,它几乎渗透到了微软的各种应用中。

  • Copilot Pages全球可用:登录用户都可以使用。
  • 专业版用户深度研究功能:同样利用了OpenAI的先进推理模型。
  • Bing上的Copilot搜索、记忆和个性化功能:还有“Copilot Actions”(这个还没大范围铺开)。
  • Copilot Vision扩展:这个功能太酷了!它可以“看懂”整个网页内容,而不仅仅是你屏幕上显示的部分,非常适合快速理解网页信息。现在支持更多平台和网站了。
  • AI播客和新的深度研究功能:如果你用的是个人版的Copilot Pro,会看到这个新的深度研究选项。效果嘛,我觉得和OpenAI、谷歌的比起来还是稍逊一筹,但也能用,跟Perplexity和Grok(如果不用X平台信息源的话)的水平差不多。

Meta AI:独立App亮相,Llama 4蓄势待发

Meta最近也搞了个大动作,发布了独立的Meta AI手机应用,主打超个性化(利用社交图谱数据)、语音交互、集成图像生成(Imagine)和网页搜索。

更早些时候,他们还发布了新的Llama 4系列模型,包括Scout和Maverick版本,据开发者透露,上下文窗口超大,达到了千万级别!而且采用了混合专家架构。未来还会有更强大的Behemoth版本和独立的推理模型,值得期待!

Grok 与 Perplexity:小众选手也有新招

  • Grok:埃隆·马斯克的Grok也有更新,增加了类似ChatGPT的个性化记忆功能和自定义工作区。还推出了Grok Studio,一个类似画布的协作工具,可以用来创建各种内容,还支持代码执行和谷歌云盘集成。
  • Perplexity:他们在iOS上推出了一个带操作能力的语音助手。这个挺有潜力的,毕竟现在的Siri嘛……你懂的。Perplexity的语音助手可以帮你查日历、起草邮件、设置提醒,甚至用语音打开YouTube视频。如果他们能持续优化,让它更可靠、功能更强,没准真能挑战一下Siri的地位。虽然我个人现在用Perplexity不多了(自从有了各家的深度研究功能),但这个语音助手让我看到了继续关注它的理由。

呼,一口气说了这么多!朋友们,你们觉得这种月度总结的形式有帮助吗?我知道今天有点长,因为涵盖了四月和五月的内容。平时我们周一的新闻播报也会提到一些,但大模型更新实在太多太快,很难面面俱到。

所以,告诉我你的想法:月度总结,可不可以?你们的反馈对我来说很重要!如果觉得这篇文章有用,也欢迎分享给可能需要的朋友。感谢阅读,我们下次再聊!