手机终于“活”了:Gemini 任务自动化上线,AI 开始替你点咖啡、叫车、跑腿

还记得那个总在App之间反复切换、填地址、选口味、确认付款的自己吗?谷歌刚刚按下暂停键——不是暂停生活,而是暂停你亲自动手的必要性。

今天,谷歌正式向部分用户开放 Gemini 任务自动化(Task Automation)Beta 版本。这不是又一个“能聊会算”的AI聊天框,而是一次真正意义上的范式转移:你的手机,正在从「工具」进化成「代理」——一个能听懂你自然语言指令、理解上下文、并在真实UI界面上自主操作多个App的数字分身。

🎯 它不调API,它“真动手”

与依赖开发者开放接口的传统自动化不同,Gemini 的任务自动化走了一条更“接地气”的路:它直接在屏幕上“看”、在界面上“点”、在列表里“滑”——就像你本人坐在那儿操作一样。

举两个让人眼前一亮的例子:
– ✅ 打车去机场?它先问你:“是T1还是T2航站楼?” ——识别出Uber App界面后,自动唤起、定位、弹出追问,再填入准确目的地;
– ✅ **“帮我点一杯Flat White和牛角包”?它真的会打开星巴克App,手指(虚拟)划动菜单滚动条,精准停在“Flat White”选项上,甚至识别出“热/冰”“脱脂奶/燕麦奶”等二级筛选项——然后等你拍板。

没有后台权限,没有深度集成,全靠视觉理解 + 操作推理。这种“UI层自动化”,让 Gemini 能即刻作用于你手机里已有的任何App——哪怕开发者根本没为AI预留接口。

🛑 自动,但绝不越界:人类始终是最终决策者

谷歌深知,把“下单”“付款”这种事交给AI,信任比技术更难建立。因此,整个流程被设计成透明、可控、可中断的三重保险:

  • 实时直播模式:每一步操作都在独立浮动窗口中清晰呈现——你看着它点哪里、输什么、滑多远;
  • 一键接管(Take Control):随时点击即可夺回屏幕控制权,像踩下刹车;
  • 强制确认关卡:无论订餐、叫车还是预约,所有涉及支付或敏感操作的环节,AI都会在最后一步戛然而止,把付款界面完整交到你手上——必须你亲手点“确认”,订单才成立。

安全不是附加功能,而是底层逻辑。

🌐 现在能干啥?未来还远不止这些

目前,Beta 版已优先支持外卖(如Uber Eats、DoorDash)和网约车(Uber、Lyft)两大高频场景。对 Pixel 8 及更新机型用户而言,这意味着:

一句“带杯冰美式顺路送到公司”,手机就能自动打开地图查路线、打开咖啡App下单、打开打车App预约——全程无需你切屏、打字、选地址。

当然,它还不完美:有时会多滑半屏、偶尔误判按钮层级、面对极简设计的App略显迟疑……但正因它不依赖厂商配合,这种“通用型自动化”才更具爆发潜力——当模型持续学习,它将快速覆盖购物、银行、政务、健康等更多场景。

💡 我们正在告别什么?又迎来什么?

告别的是那个“App丛林求生指南”时代:打开A查天气→切到B设闹钟→跳去C点外卖→再切D付钱……
迎来的是真正的意图计算时代:你只需表达“我想做什么”,剩下的,交给设备去理解、拆解、执行、确认。

这不是科幻预告片。这是今天,你手机里已经悄然启动的下一章。
准备好,跟那个“只会回答问题”的AI说再见吧——
你的新同事,已经开始帮你跑腿了。

作加

类似文章