Gemini 要“亲手”帮你点外卖、约美甲?谷歌悄悄上线安卓自动操作黑科技


🤖 不是语音助手,是“数字手”:Gemini 正在学会真正操控你的手机

你有没有想过——有一天,AI 不只是听你说话、回答问题,而是直接在你的屏幕上点击、滑动、填写表单、确认下单?这不是科幻预告片,而是谷歌正在测试的现实功能:“屏幕自动化”(Screen Automation)。它已悄然现身于最新版 Google App(17.4 测试版),内部代号 “倭黑猩猩”(Bonobo)——一个听起来温柔,实则暗藏颠覆性能力的名字。

🔍 它到底能做什么?比“查天气”硬核得多

简单说:Gemini 现在能“看见”你的屏幕,并像真人一样操作 App。
借助 Android 16 QPR3 新增的底层权限与无障碍增强能力,它可深入淘宝、美团、携程、日历等主流应用,在用户明确授权和全程监督下,完成一系列高交互任务:
– ✅ 在电商 App 中比价、加购、提交订单;
– ✅ 在生活服务平台预约理发、家政或体检;
– ✅ 在日历中新建会议、邀请同事、同步提醒;
– ✅ 在银行类 App(仅限支持场景)查看余额、转账进度(注意:不涉及敏感操作)。

关键在于——你只需用自然语言发出指令,比如:“帮我订今晚7点、三里屯那家‘云朵面包’的双人位”,Gemini 就会自动打开大众点评、筛选门店、跳转预约页、填写人数与时间,最后停在“确认预约”按钮前,等你轻点一下。

⚠️ 重要提醒:这是“副驾驶”,不是“自动驾驶”

谷歌态度非常清醒:Gemini 是助手,不是代理人。
– ❗ 它的操作全程可见——屏幕会实时高亮显示 Gemini 即将点击的区域,并伴有语音提示;
– ❗ 用户可随时双击电源键中断流程,0.5秒内接管控制权;
– ❗ 所有操作需用户主动触发+分步确认,绝不会在后台静默执行;
– ❗ 谷歌明确警告:“技术仍在演进,可能出现误点、跳过步骤或识别错误——最终责任始终在用户身上。

🔐 隐私不是口号:每帧画面都受约束

担心 AI “偷看”你的微信聊天或支付密码?谷歌设下了三道防线:
1. 默认不录屏:只有用户手动开启“活动记录保存”选项后,系统才截取操作片段;
2. 人工审核严控用途:所有录屏仅由经过 GDPR/CCPA 认证的谷歌内部审核员查看,目的仅限于改进自动化准确率,严禁用于广告或用户画像;
3. 敏感信息主动规避:Gemini 会自动模糊或跳过含银行卡号、验证码、密码框的界面——谷歌甚至建议:“别在启用该功能时输入登录密码或支付密码”,安全边界划得清清楚楚。

🌟 彩蛋:Meet 里,你的 3D 虚拟分身也来了

同一测试版中,还藏着另一个代号为 “芥末”(Wasabi) 的彩蛋功能:个性化 3D 虚拟形象。它将在 Google Meet 视频通话中替代你的摄像头画面,支持手势微表情、实时口型同步,甚至能根据会议主题切换职业装/休闲装——严肃谈判or创意脑暴,一键换装。

💡 这不只是功能升级,而是一次人机关系的重定义

当 AI 从“回答者”进化为“执行者”,我们和设备的关系正在发生微妙却深刻的迁移:

手机不再只是工具,而是拥有“协同肢体”的智能伙伴;
操作系统不再只响应点击,而是理解意图、拆解动作、动态校准;
用户的注意力,正从“学操作”转向“定目标”——把精力留给真正需要判断与情感的事。

Gemini 的这双手,尚在练习期。但它伸出来的那一刻,我们已经站在了下一个交互时代的门槛上。
准备好,让 AI 帮你点第一杯咖啡了吗? ☕️