智能体大爆发：2025 开年，谁主沉浮？

嘿，各位技术爱好者们，你们好呀！

不知道大家有没有发现，进入 2025 年以来，AI 智能体（AI agent）这个词儿就跟坐上了火箭似的，蹭蹭地往上蹿！感觉一夜之间，各种新玩意儿、新进展就扑面而来了。作为一名时刻关注科技前沿的博主，我必须得跟大家捋一捋上半年这波澜壮阔的 AI 智能体发展大戏！

2025 上半年，AI 智能体按下加速键！

简单给大家盘点一下这半年的高光时刻：

一月份，OpenAI 就扔出个“炸弹”——能自个儿上网冲浪的 AI 智能体 Operator，听着就很酷！
二月份，他们又来了个 Deep Research，专门搞定复杂任务研究，估计不少小伙伴已经用上瘾了吧？
三月份，咱们国内也迎来了号称首个通用的 AI 智能体 Manus，那叫一个火爆出圈！到了五月，Manus 更是拿下了硅谷老牌风投 Benchmark 领投的 7500 万美元融资，简直是开了挂。
还有，就在前不久的 5 月 6 号，OpenAI 又豪掷 30 亿美元收购了 Windsurf。另一边，编程工具 Cursor 的母公司 Anysphere 也喜提 9 亿美元融资，估值飙到 90 亿美元！

我的天，这节奏，是不是感觉 AI 智能体的世界就像按下了加速键？最近我也和圈内不少大佬聊了聊，总结下来，这背后大概有三股“神秘力量”在推动：

模型写代码能力飙升： 就拿 Anthropic 去年年中发布的 Sonnet 3.5 来说，在代码生成上那可是质的飞跃，直接带火了一批像 Windsurf、Cursor 这样的编程 AI 智能体。
RFT 技术闪亮登场： 这种强化学习微调技术，哪怕训练数据不多，也能让模型在特定任务上表现更出色，给智能体的发展又添了一把火。
MCP 协议铺路搭桥： 2024 年底，Anthropic 提出的这套 MCP 协议，能把传统信息服务变成 AI 可交流的模式。现在越来越多的网站和服务开始接入，行业的基础设施也慢慢搭建起来了。

到底啥是 AI 智能体？跟以前有啥不一样？

说起 AI 智能体，大家可能印象各不相同。最早，AI 智能体这概念主要出现在强化学习里，比如咱们熟知的 AlphaGo，它能在围棋环境里通过反馈自主学习策略。

但大语言模型出来后，“智能体”这个词儿就有点“大众化”了。现在我们说 AI 智能体，通常指的是：

更像一个能独立完成任务的“人”。
背后有个大语言模型或者具备推理能力的模型驱动。
可能有自己的记忆系统。
有跟用户交互的界面。

最有意思的是，过去这几个月，传统的强化学习智能体和新一代大模型智能体开始融合了！以前的大模型智能体，更多的是靠人给它配置知识库、工作流，它自己不太会“学习”。但现在，通过 RFT 这样的技术，智能体也能在特定环境（比如法律、操作电脑）中探索、学习，实现自我进化。这就像是给大语言模型找到了它的“AlphaGo 时刻”！

“环境”——让智能体变聪明的秘密武器

为啥以前的 AI 智能体总感觉有点“笨笨的”？关键就在于“环境”。它们训练的时候并没有真正和环境互动。比如，你想让它操作电脑订机票，它可能知道概念，但真操作起来就歇菜了。

但你看 OpenAI 的 Operator，它就聪明不少。为啥？因为它是在一个能操作电脑的环境里，通过强化学习不断“操练”出来的。它会尝试、会犯错、会根据反馈调整策略，就像一个新手在学习怎么用电脑。

这种“在环境中学习”的能力，是过去半年才有的突破。这让智能体能够更自主地思考，更有效地完成任务。

编程就是个特典型的例子。一个好的编程智能体，光会写代码可不行，它还得懂 IDE、懂测试工具、懂怎么用 GitHub、怎么查社区。所以，像 Windsurf、Cursor 这些出色的编程智能体，它们厉害就厉害在对“编程环境”的深刻理解。它们不只是写代码，还知道怎么跑命令行、查资料，甚至给自己“记笔记”！

一位在纽约大学念应用心理学的 AI 创业者就分享说，他自己也开发过不少小产品，会用 Replit Agent、Cursor 这类编程智能体。他研究的更多是像微软 Copilot Studio、字节 Coze 这样的“智能体建造平台”（agent builder），能帮你造出更多智能体的工具。他甚至开玩笑说，自己已经造了快 200 个智能体了！可见现在开发一个产品的成本变得有多低。

Manus 体验：好看、好用，但还不够“通用”？

聊到具体的智能体，Manus 自然是绕不开的话题。作为首批用户，对 Manus 的 UI 设计和记忆功能印象深刻。Manus 的记忆功能比 ChatGPT 的更符合他的使用习惯，能够记住他的特定指令，比如“在执行任务前先问我足够多的澄清性问题”。

他主要用 Manus 来做大量的资料搜集和研究，特别是需要快速进入一个新领域的时候。他觉得 Manus 更擅长做“广度”的工作，然后把结果生成一个可交互的网站，因为视觉呈现也很重要。相较于 Deep Research，他更喜欢 Manus 的透明度，能看到每一步在做什么，并且可以随时打断或接管。

不过，虽然 Manus 试图通过“编码+GUI+命令行”的组合来实现通用性，但目前用户主要还是用它来做网页、研究或者 PPT 素材，并没有真正“破圈”到更广泛的人群和场景。这背后一个很大的限制可能来自于“数据壁垒”——AI 没法像人一样轻松进入到小红书这类封闭的环境中去获取信息。

另一款有趣的工具是 Scrapybara，它把自己定位成“一个给你的智能体用的计算机”（a computer for your agent）。它通过 API 提供一个安全的虚拟环境，让智能体可以在里面执行具体行动。

模型能力是基石，但“评估”才是产品的准星！

不管是 Manus 还是 Cursor 的火爆，都离不开底层大模型能力的提升，特别是像 Anthropic 的 Claude Sonnet 系列在代码能力上的突破。这让通过代码这个“中间层”来操作各种数据和环境成为可能。

然而，评估（Evaluation）可能比训练本身更重要！ 他把 Prompt 比作武器，那评估就是准星。一个 AI 产品不可能靠一次成功的 Demo 就火，持续迭代才是王道，而评估是唯一可以量化每次产品变更后效果的工具。

三种评估方式：

人工评估： 好处是直接与用户偏好相关，但反馈稀疏、成本高。
基于代码的评估： 快速便宜，适合代码生成，但不适用于语义复杂或交互丰富的应用。
基于大模型的评估（LLM-based）： 让模型自己评估自己，自动化程度更高。

未来的 AI 智能体产品，必须从一开始就建立系统性的评估框架，这应该是整个智能体框架的核心组成部分。特别是面向真实环境的评估，如果能将评估结果转化为可重复生成的“奖励（reward）”，AI 就能在自我优化时有明确的参照目标。

通用智能体的困境与未来：从小处着手，深耕垂直领域？

“通用”定位的双刃剑： “什么都能做”听起来很美好，但用户往往不会想找个“万金油”来解决具体问题，这导致了用户心智定位的模糊。
认知启动成本高： 用户需要花时间去理解通用智能体的能力边界和表达方式。
网络效应断裂： 通用智能体缺乏统一的使用场景，难以形成平台级的飞轮效应。他甚至用 Google Wave 这个早期集合了多种功能但最终失败的产品做了类比。

Manus 目前在全球举办各种活动，也是希望通过社区主导的方式，更好地接触用户，找到真正有价值的垂直场景。

哪些 AI 智能体值得期待？

Cursor，从技术人员切入，对环境理解深刻，并且有潜力通过 MCP 协议连接更多场景，成为更通用的智能体。
那些极其垂直的智能体。举几个例子：
- Vental: 专门为商业保险经纪人打造，能自动分析保单、录入数据，大大节省时间。
- The Sweet Spot: 帮助全球的企业和非营利组织申请联邦补助金，能解读合同、做招投标分析，用户体验极佳。
- Gamma: 一款用 AI 做 PPT 的设计软件。我个人也超爱 Gamma，只需要给个框架，它就能自动生成内容和排版，颜值还超高！ Gamma 的强大不仅在于 AI 功能，更在于其模块化设计带来的出色视觉效果和交互体验。

心态与行动：加速！但也更需审慎

这两个月 AI 智能体的飞速发展，也让从业者的心态和做事方式发生了变化。

最大的感受就是“快”！无论是看竞品还是自己做产品，执行速度都大大提升，甚至有时候要“执行大于规划”。

2025 年的 AI 智能体浪潮，无疑是激动人心的。我们看到了技术的飞跃，也感受到了创业者们的激情和智慧。但正如我们所见，这条路也充满了挑战和未知。数据壁垒如何打破？用户体验如何优化？商业模式如何建立？这些都是摆在所有从业者面前的考题。

但无论如何，AI 智能体正以前所未有的速度向我们奔来，它们是工具，是助手，未来甚至可能是我们数字世界的“第二自我”。让我们拭目以待，这些聪明的“小家伙们”将如何继续进化，又会给我们的生活带来怎样的惊喜吧！

智能体大爆发：2025 开年，谁主沉浮？

更多文章

驾驭生成式AI：商业领袖的创造性问题解决框架

微信输入法重磅升级：方言全支持、语音无时长限制，离线也能畅快说话

Zoom如何用“AI混搭”击败谷歌？一场没有硝烟的模型大战

国产AI医学影像新突破：美的医疗推出“一键诊断”大模型，赋能基层医疗