作加

Gemini 2.5登场:谷歌AI代理开启网页操作新纪元


谷歌AI代理迈出关键一步,网页操作不再是人类专属

科技巨头谷歌最近放出重磅消息:Gemini 2.5 Computer Use模型正式亮相。这款新一代AI代理模型突破性地实现了对网页界面的”视觉理解”,让AI真正具备了像人类一样操作浏览器的能力。

看得懂网页的AI助手来了

这项技术最引人注目的地方在于,它能直接”看到”网页内容并进行智能分析。无论是填写复杂的注册表单,还是在电商网站挑选商品,Gemini 2.5都能自主完成这些过去必须由人工操作的任务。更厉害的是,它特别擅长处理那些专为人类设计、刻意防范机器人的界面。

AI代理大战全面升级

谷歌此次发布可谓恰逢其时。就在前一天,OpenAI刚刚在开发者大会上亮出新一代ChatGPT代理功能。而Anthropic也早在去年就推出了具备计算机操作能力的Claude模型。这场AI代理技术的军备竞赛,正在加速改变人机交互的未来图景。

不过目前Gemini 2.5还有明显局限——它只能在浏览器环境内操作,尚不具备控制整个计算机系统的能力。当前支持的13种操作主要包括打开浏览器、输入文本、拖放元素等基础功能。

开发者先行体验,普通用户也能尝鲜

技术开发者们现在就可以通过Google AI Studio和Vertex AI平台抢先体验这项突破性技术。对于普通用户,Browserbase平台提供了直观的演示案例,包括自动玩2048游戏、浏览Hacker News热点话题等精彩场景。

这项技术的推出,标志着AI代理正式迈入能理解并操作复杂网页界面的新阶段。虽然还在早期发展阶段,但已经展现出改变我们与数字世界互动方式的巨大潜力。