Antigravity 硬核测评:当 AI 从”副驾驶”变成”代驾”,开发者还需要盯着方向盘吗?
过去几年,AI 辅助编程的发展路线一直很清晰:代码补全越来越聪明、聊天框能读懂的代码越来越多、上下文窗口越来越大。但本质上,你还是那个握着方向盘的司机,AI 只是坐在副驾,帮你看看路、提提醒。
Google Antigravity 想赌一把大的:如果把方向盘直接交给 AI,让它独立完成那些边界清晰的开发任务,会发生什么?
Antigravity 到底是什么?
Antigravity 于 2025 年 11 月随 Gemini 3 一起发布。它的核心思路不是”在现有编辑器里加个 AI 插件”,而是反过来:如果从一开始就围绕”自主 Agent”设计 IDE,会长成什么样?
答案就是:它看起来不太像传统编辑器,更像一个任务编排中心,编辑器只是其中的一部分。
它有两个核心界面:
- 编辑器视图(Editor View):这和大家熟悉的 Cursor、VS Code 类似,有代码补全、内联命令和侧边栏 Agent。上手门槛很低。
- 管理界面(Manager Surface):这是真正的新东西。你可以在这里同时”派活”给多个 Agent,让它们在不同的工作区里异步运行。比如一个 Agent 在写新功能,另一个在后台修 Bug,两边互不干扰,也不需要你盯着。
实际使用时,你只需用自然语言描述目标,Agent 会自动规划步骤、写代码、执行终端命令,甚至打开浏览器验证结果。任务完成后,它会返回成果物(Artifacts)——包括截图、操作日志和屏幕录制——让你事后审查,而不是全程盯着它干活。
Antigravity 2.0 更新了什么?
在 2026 年 5 月 19 日的 Google I/O 上,谷歌发布了 Antigravity 2.0,主要更新包括:
- 浏览器子代理(Browser Subagent):Agent 可以控制一个真实的 Chromium 浏览器去访问页面、点击按钮,实时验证你的前端改动。
- 全新 Go 语言 CLI:比旧的 Gemini CLI 更轻、更快。
- SDK:支持自定义 Agent 行为,并部署在你自己的基础设施上。
- 托管 Agent(Managed Agents):通过 Gemini API 直接运行 Agent 工作流,不用自己搭环境。
默认模型是 Gemini 3.5 Flash(谷歌称其速度更快,且在多数基准测试里超过了 Gemini 3.1 Pro)。不过平台也支持 Claude(Sonnet 和 Opus)以及 GPT-OSS(OpenAI 的开源模型)。这种多模型策略是在传递一个信号:Antigravity 想做一个中立平台,而不是谷歌自家的封闭花园。
和 Cursor、VS Code、Claude Code 怎么比?
这些工具其实算不上直接的竞争对手,因为它们的定位不同:
- Google Antigravity:主打任务委托。你把任务丢给 Agent,它异步执行。
- Cursor / VS Code + Copilot:主打辅助写作。你主导键盘,AI 帮你补全和优化。
- Claude Code:介于两者之间,是终端里的 Agent,但缺少图形化的多任务调度层。
具体差异可以这样看:
执行与并行能力
– Antigravity:原生支持在终端跑命令、在浏览器里做验证。最大的不同是能在多个工作区同时运行多个 Agent,真正实现并行作业。
– Cursor 和 VS Code:基本是单线程模式,以人机协同编辑为主。
– Claude Code:虽然是 Agent,但通常一次只能处理一个会话任务,没有多工作区并行能力。
模型选择自由度
– Antigravity:默认 Gemini,但可一键切换到 Claude 或 GPT-OSS。对担心被单一厂商绑定的团队很友好。
– Cursor:支持配置多种模型。
– VS Code + Copilot:主要依赖 GitHub Copilot 的模型生态。
– Claude Code:只能用 Claude 系列模型。
成果审查与审计
– Antigravity:每次任务都会生成结构化的 Artifacts(截图、日志、录屏),方便你事后审查。但这也意味着,如果你不认真看,很容易积累大量未经检查的代码变更。
– Cursor、VS Code、Claude Code:审计能力相对薄弱,主要依靠编辑器历史或终端输出回溯。
成熟度与适用场景
– Antigravity:目前仍是公开预览版(Public Preview),API 和定价都可能调整。最适合从零开始的新项目(Greenfield)、原型验证和并行任务。
– Cursor:非常成熟,适合日常的生产环境开发。
– VS Code + Copilot:生态最完善,适合已经在微软系工具链上的团队。
– Claude Code:成熟稳定,但聚焦在终端,适合习惯命令行和 API 工作的开发者。
说句实话:如果你在一个大型单体仓库(monorepo)里写核心生产代码,每一个代码差异(diff)都需要严格把关,那目前 Cursor 或 VS Code 仍然是更稳妥的选择。Antigravity 的”委托模式”需要建立一套审查习惯——不看 Artifacts 就合并代码,等于给自己埋雷。
它真正厉害的地方
多 Agent 并行是独一份
目前市面上没有主流工具能让你在一个界面里,同时调度多个 Agent 在不同工作区异步跑任务。对于需要并行推进多个功能、或者想后台跑一些维护任务(比如批量更新依赖、生成文档、安全审计)的团队来说,Manager Surface 确实解决了实实在在的协调难题。
浏览器子代理改变了前端验证流程
以前改完 UI,你得手动启动开发服务器、点点这、戳戳那,才能确认效果。现在 Agent 自己就能操作浏览器去验证,并把证据(截图、录屏)带回来。这大大压缩了前端迭代中那段最枯燥的”人肉测试”时间。
多模型支持降低”锁死”焦虑
不用因为换了一个模型就得换一套工具。在 Antigravity 里切到 Claude Sonnet 或 GPT-OSS 是无缝的。对于那些有严格模型合规要求或成本考量的团队,这个细节很实用。
免费额度是真实的入场券
目前个人开发者可以免费使用所有支持的模型(包括 Gemini 3.5 Flash),只是有速率限制。付费档位(AI Pro)大约每月 20 美元起。谷歌已经调整过好几次限额和套餐名了,具体数字建议以官网为准。
使用前必须知道的坑
它还在”公开预览”阶段
从 2025 年 11 月发布到现在,API 接口、定价策略、速率限制都变过。如果你打算基于它的 SDK 做内部工具,一定要做好应对”破坏性更新”(breaking changes)的准备。
自主 Agent = 沉重的审查负担
这既是优点也是风险。Agent 执行得越多、越快,你面临的”待审查代码”就越多。如果你养成了不仔细看 Artifacts 就合并的习惯,生产代码库里会悄悄积累大量隐患。这是工作流纪律问题,比工具本身更致命。
浏览器子代理还不够成熟
让 Agent 操控真实浏览器是个很棒的想法,但在处理复杂交互时——比如第三方 OAuth 登录、嵌入式组件、WebGL 渲染——它的稳定性还比不上 Playwright 或 Cypress 这类专业测试框架。目前只适合快速迭代验证,不能替代你的正式测试套件。
默认模型有 trade-off(权衡)
Gemini 3.5 Flash 作为默认模型,胜在快和便宜。但面对复杂的架构设计、大规模重构等需要深度推理的任务,你可能需要手动切换到更强的模型。这个”选模型”的决策,目前不会自动完成。
总结:你该试试吗?
值得,但建议小范围试水。
体验 Antigravity 最好的方式是:拿一个全新的、边界清晰的任务——比如一个 API 接口、一个独立脚本、一个 UI 组件——丢进 Manager Surface,然后认真审查一遍它返回的 Artifacts。这个过程会让你立刻看清两件事:它的天花板(哪些活真的能自主搞定)和地板(哪些环节你还得亲自上手)。
如果你和团队已经在用 Cursor 高效地产出代码,Antigravity 现阶段还取代不了。它更像是一个增量工具:专门处理那些原本需要你频繁切换上下文、或者只能排队等待的并行任务。
对于所有关注”Agent 原生 IDE”这条路的开发者来说,Antigravity 是 2026 年最清晰的行业样本。它能不能代表未来?现在下结论还为时尚早。但至少,这个”把方向盘交给 AI”的实验,值得你自己上去开一圈。
