作加

智能体大爆发:2025 开年,谁主沉浮?


嘿,各位技术爱好者们,你们好呀!

不知道大家有没有发现,进入 2025 年以来,AI 智能体(AI agent)这个词儿就跟坐上了火箭似的,蹭蹭地往上蹿!感觉一夜之间,各种新玩意儿、新进展就扑面而来了。作为一名时刻关注科技前沿的博主,我必须得跟大家捋一捋上半年这波澜壮阔的 AI 智能体发展大戏!

2025 上半年,AI 智能体按下加速键!

简单给大家盘点一下这半年的高光时刻:

  • 一月份,OpenAI 就扔出个“炸弹”——能自个儿上网冲浪的 AI 智能体 Operator,听着就很酷!
  • 二月份,他们又来了个 Deep Research,专门搞定复杂任务研究,估计不少小伙伴已经用上瘾了吧?
  • 三月份,咱们国内也迎来了号称首个通用的 AI 智能体 Manus,那叫一个火爆出圈!到了五月,Manus 更是拿下了硅谷老牌风投 Benchmark 领投的 7500 万美元融资,简直是开了挂。
  • 还有,就在前不久的 5 月 6 号,OpenAI 又豪掷 30 亿美元收购了 Windsurf。另一边,编程工具 Cursor 的母公司 Anysphere 也喜提 9 亿美元融资,估值飙到 90 亿美元!

我的天,这节奏,是不是感觉 AI 智能体的世界就像按下了加速键?最近我也和圈内不少大佬聊了聊,总结下来,这背后大概有三股“神秘力量”在推动:

  1. 模型写代码能力飙升: 就拿 Anthropic 去年年中发布的 Sonnet 3.5 来说,在代码生成上那可是质的飞跃,直接带火了一批像 Windsurf、Cursor 这样的编程 AI 智能体。
  2. RFT 技术闪亮登场: 这种强化学习微调技术,哪怕训练数据不多,也能让模型在特定任务上表现更出色,给智能体的发展又添了一把火。
  3. MCP 协议铺路搭桥: 2024 年底,Anthropic 提出的这套 MCP 协议,能把传统信息服务变成 AI 可交流的模式。现在越来越多的网站和服务开始接入,行业的基础设施也慢慢搭建起来了。

到底啥是 AI 智能体?跟以前有啥不一样?

说起 AI 智能体,大家可能印象各不相同。最早,AI 智能体这概念主要出现在强化学习里,比如咱们熟知的 AlphaGo,它能在围棋环境里通过反馈自主学习策略。

但大语言模型出来后,“智能体”这个词儿就有点“大众化”了。现在我们说 AI 智能体,通常指的是:

  • 更像一个能独立完成任务的“人”。
  • 背后有个大语言模型或者具备推理能力的模型驱动。
  • 可能有自己的记忆系统。
  • 有跟用户交互的界面。

最有意思的是,过去这几个月,传统的强化学习智能体和新一代大模型智能体开始融合了!以前的大模型智能体,更多的是靠人给它配置知识库、工作流,它自己不太会“学习”。但现在,通过 RFT 这样的技术,智能体也能在特定环境(比如法律、操作电脑)中探索、学习,实现自我进化。这就像是给大语言模型找到了它的“AlphaGo 时刻”!

“环境”——让智能体变聪明的秘密武器

为啥以前的 AI 智能体总感觉有点“笨笨的”?关键就在于“环境”。它们训练的时候并没有真正和环境互动。比如,你想让它操作电脑订机票,它可能知道概念,但真操作起来就歇菜了。

但你看 OpenAI 的 Operator,它就聪明不少。为啥?因为它是在一个能操作电脑的环境里,通过强化学习不断“操练”出来的。它会尝试、会犯错、会根据反馈调整策略,就像一个新手在学习怎么用电脑。

这种“在环境中学习”的能力,是过去半年才有的突破。这让智能体能够更自主地思考,更有效地完成任务。

编程就是个特典型的例子。一个好的编程智能体,光会写代码可不行,它还得懂 IDE、懂测试工具、懂怎么用 GitHub、怎么查社区。所以,像 Windsurf、Cursor 这些出色的编程智能体,它们厉害就厉害在对“编程环境”的深刻理解。它们不只是写代码,还知道怎么跑命令行、查资料,甚至给自己“记笔记”!

一位在纽约大学念应用心理学的 AI 创业者就分享说,他自己也开发过不少小产品,会用 Replit Agent、Cursor 这类编程智能体。他研究的更多是像微软 Copilot Studio、字节 Coze 这样的“智能体建造平台”(agent builder),能帮你造出更多智能体的工具。他甚至开玩笑说,自己已经造了快 200 个智能体了!可见现在开发一个产品的成本变得有多低。

Manus 体验:好看、好用,但还不够“通用”?

聊到具体的智能体,Manus 自然是绕不开的话题。作为首批用户,对 Manus 的 UI 设计和记忆功能印象深刻。Manus 的记忆功能比 ChatGPT 的更符合他的使用习惯,能够记住他的特定指令,比如“在执行任务前先问我足够多的澄清性问题”。

他主要用 Manus 来做大量的资料搜集和研究,特别是需要快速进入一个新领域的时候。他觉得 Manus 更擅长做“广度”的工作,然后把结果生成一个可交互的网站,因为视觉呈现也很重要。相较于 Deep Research,他更喜欢 Manus 的透明度,能看到每一步在做什么,并且可以随时打断或接管。

不过,虽然 Manus 试图通过“编码+GUI+命令行”的组合来实现通用性,但目前用户主要还是用它来做网页、研究或者 PPT 素材,并没有真正“破圈”到更广泛的人群和场景。这背后一个很大的限制可能来自于“数据壁垒”——AI 没法像人一样轻松进入到小红书这类封闭的环境中去获取信息。

另一款有趣的工具是 Scrapybara,它把自己定位成“一个给你的智能体用的计算机”(a computer for your agent)。它通过 API 提供一个安全的虚拟环境,让智能体可以在里面执行具体行动。

模型能力是基石,但“评估”才是产品的准星!

不管是 Manus 还是 Cursor 的火爆,都离不开底层大模型能力的提升,特别是像 Anthropic 的 Claude Sonnet 系列在代码能力上的突破。这让通过代码这个“中间层”来操作各种数据和环境成为可能。

然而,评估(Evaluation)可能比训练本身更重要! 他把 Prompt 比作武器,那评估就是准星。一个 AI 产品不可能靠一次成功的 Demo 就火,持续迭代才是王道,而评估是唯一可以量化每次产品变更后效果的工具。

三种评估方式:

  • 人工评估: 好处是直接与用户偏好相关,但反馈稀疏、成本高。
  • 基于代码的评估: 快速便宜,适合代码生成,但不适用于语义复杂或交互丰富的应用。
  • 基于大模型的评估(LLM-based): 让模型自己评估自己,自动化程度更高。

未来的 AI 智能体产品,必须从一开始就建立系统性的评估框架,这应该是整个智能体框架的核心组成部分。特别是面向真实环境的评估,如果能将评估结果转化为可重复生成的“奖励(reward)”,AI 就能在自我优化时有明确的参照目标。

通用智能体的困境与未来:从小处着手,深耕垂直领域?

  1. “通用”定位的双刃剑: “什么都能做”听起来很美好,但用户往往不会想找个“万金油”来解决具体问题,这导致了用户心智定位的模糊。
  2. 认知启动成本高: 用户需要花时间去理解通用智能体的能力边界和表达方式。
  3. 网络效应断裂: 通用智能体缺乏统一的使用场景,难以形成平台级的飞轮效应。他甚至用 Google Wave 这个早期集合了多种功能但最终失败的产品做了类比。

Manus 目前在全球举办各种活动,也是希望通过社区主导的方式,更好地接触用户,找到真正有价值的垂直场景。

哪些 AI 智能体值得期待?

  •  Cursor,从技术人员切入,对环境理解深刻,并且有潜力通过 MCP 协议连接更多场景,成为更通用的智能体。
  • 那些极其垂直的智能体。举几个例子:
    • Vental: 专门为商业保险经纪人打造,能自动分析保单、录入数据,大大节省时间。
    • The Sweet Spot: 帮助全球的企业和非营利组织申请联邦补助金,能解读合同、做招投标分析,用户体验极佳。
    • Gamma: 一款用 AI 做 PPT 的设计软件。我个人也超爱 Gamma,只需要给个框架,它就能自动生成内容和排版,颜值还超高! Gamma 的强大不仅在于 AI 功能,更在于其模块化设计带来的出色视觉效果和交互体验。

心态与行动:加速!但也更需审慎

这两个月 AI 智能体的飞速发展,也让从业者的心态和做事方式发生了变化。

最大的感受就是“快”!无论是看竞品还是自己做产品,执行速度都大大提升,甚至有时候要“执行大于规划”。

2025 年的 AI 智能体浪潮,无疑是激动人心的。我们看到了技术的飞跃,也感受到了创业者们的激情和智慧。但正如我们所见,这条路也充满了挑战和未知。数据壁垒如何打破?用户体验如何优化?商业模式如何建立?这些都是摆在所有从业者面前的考题。

但无论如何,AI 智能体正以前所未有的速度向我们奔来,它们是工具,是助手,未来甚至可能是我们数字世界的“第二自我”。让我们拭目以待,这些聪明的“小家伙们”将如何继续进化,又会给我们的生活带来怎样的惊喜吧!