AI终于“动手”了:Claude能点鼠标、拖窗口、回邮件,你的电脑正在被接管

3月24日,Anthropic扔出一枚技术深水炸弹——不是新模型参数,也不是更长的上下文窗口,而是一次颠覆性的交互革命:Claude 现在真的会“用电脑”了。

它不再满足于生成代码、润色邮件或总结PDF;它开始点击按钮、滚动网页、拖拽文件、切换标签页,甚至在你手机上发一句“把上周销售数据导出成Excel并发给财务组”,它就在你Mac后台默默打开浏览器、登录CRM、筛选表格、复制粘贴、写邮件、点击发送——全程无需API对接、不依赖插件、不挑软件,只靠“看懂屏幕”和“模拟操作”。

🖥️ 不靠接口,靠“眼睛”和“手”

过去所有AI助手的“行动力”,都卡在一道隐形门槛上:必须有API、得装插件、要开发者手动接入。Claude Code 和 Claude Cowork 的这次升级,直接绕开了这整套基建逻辑。

它搭载了全新的视觉-动作协同引擎
– 实时解析屏幕像素,识别UI元素(按钮、输入框、菜单栏);
– 像真人一样执行点击、右键、键盘输入、滚轮滑动、窗口缩放等底层操作;
– 无需你配置Python环境、写自动化脚本,甚至不用打开终端——说人话就行。

实测中,用户一句“帮我把钉钉里昨天王磊发的会议纪要PDF转成Word,加粗标题,存到‘项目文档/2024Q1’文件夹”,Claude自动唤起钉钉桌面版、定位聊天、下载附件、调用本地转换工具、重命名、移动文件——一气呵成。

📱 手机发令,Mac干活:Dispatch让AI成为“跨屏分身”

更狠的是,Anthropic同步上线了 Dispatch 跨设备调度系统

你在通勤地铁上用iPhone语音说:“查下今天10点客户Demo的PPT是否已上传到Google Drive,如果没传,从‘~/Downloads’找最新版补传,并通知张经理。”
Claude立刻唤醒你家中的Mac,在后台静默完成全部操作,再通过iMessage回你一句:“已完成,已通知。”

这不是远程控制,而是任务级委托——你交付目标,它负责路径规划、工具选择、异常处理与结果闭环。

⚔️ 双线竞速:即插即用 vs 生态开放

就在同一天,开源Agent框架OpenClaw也宣布重大架构升级,推出插件市场 ClawHub,支持VS Code、JetBrains、Obsidian等十余种开发工具直连。但它的哲学截然不同:

维度 Claude 路线 OpenClaw 路线
出发点 开箱即用的生产力 可定制的系统级Agent
落地场景 macOS日常办公(邮件/文档/会议/编码) 工程师工作流深度集成(CI/CD、调试、测试)
开放性 封闭生态,Pro/Max订阅用户优先体验 全开源+插件市场,鼓励社区共建工具链

一句话概括:Claude想当你的“数字助理”,OpenClaw想当你的“操作系统副驾驶”。

⚠️ 别急着交出鼠标:现在还是“聪明实习生”,不是“全能CEO”

当然,这场革命还带着明显的“胎动期”特征:
– 复杂嵌套任务(如“分析三份不同格式财报,对比毛利率变动,生成PPT图表并插入到现有汇报模板第7页”)仍可能失败1–2次;
– 操作速度约为人类熟练用户的60%–70%,尤其涉及多窗口频繁切换时;
– 当前仅限macOS(M1/M2/M3芯片),Windows/Linux尚无时间表;
– 所有操控均在本地运行,屏幕内容不上传云端——Anthropic强调“隐私即默认”。

但真正的拐点早已到来:当AI第一次稳稳握住鼠标光标,人机关系就从“问答”进入了“委托”阶段。我们不再问“这个怎么写”,而是说“把这个做完”。

下一个问题是:当AI能替你开会、写周报、跑测试、回老板消息……
你的时间,到底该用来做什么?

这场关于“最强数字员工”的竞赛,没有终点线——只有越来越模糊的,人与机器的职责边界。

作加

类似文章