用自然语言操控浏览器:OpenClaw 浏览器工具实战指南(不用写一行 Selenium 代码)
你有没有试过:
– 每天手动打开 5 个竞品网站,复制价格粘贴到表格里?
– 供应商后台没 API,只能人工登录 → 找发票 → 下载 PDF → 改名 → 存文件夹?
– 测试脚本跑着跑着就崩了,只因为前端同学把按钮 class 名从 btn-submit 改成了 submit-btn?
别硬扛了。OpenClaw 内置的浏览器自动化工具,就是专治这些「人肉操作病」的——而且你不用装 Playwright、不配 Docker、不写 selector、甚至不用懂 JavaScript,就能让 AI 像真人一样点、输、切页、下文件、等加载、截图发报告。
下面带你用「开发者视角」看透它怎么工作、能干啥、哪里要小心,以及为什么现在用它比写 Puppeteer 脚本还省心。
它不是在“模拟点击”,而是在“真正用浏览器”
OpenClaw 的浏览器不是偷用你 Chrome 的标签页,而是每次启动一个干净、隔离的 Chromium 实例(就像你开了个隐身窗口,但连历史、密码、Cookie 都完全不共享)。
好处?你的个人浏览器稳如泰山,AI 的操作不会互相污染,也不会误点你收藏夹里的“年度账单”。
底层技术栈很轻量:
– 启动一个本地 HTTP 控制服务(默认监听 127.0.0.1:18791)
– 通过 Chrome DevTools Protocol(CDP)和浏览器通信(底层协议,稳定)
– 上层用 Playwright 做高级操作(点击/拖拽/填表/导 PDF)
– 就算你不装 Playwright,基础功能(跳转、截图、快照)也照常可用
它能做什么?真实能力清单(无夸张)
✅ 多标签管理
开新页、切标签、关标签——比如同时扒 3 家电商的价格页,再对比数据。
✅ 精准点按 & 表单填写
不是靠 #login-btn 这种易碎 selector,而是:
1. 先对页面拍一张「语义快照」(不是截图!是读 DOM 结构生成的可交互元素列表)
2. 每个按钮/输入框/链接都被自动编号,例如:
[7] button "立即下单"
[12] input "手机号"
[19] select "配送地区"
[23] link "查看订单历史"
- 然后直接发指令:
click 7或type 12 "138****1234"—— 稳、准、不依赖 class/id。
✅ 智能等待(告别 sleep(5000))
再也不用手动加“等 5 秒”了。支持多种条件组合等待:
– 等 URL 变成 /dashboard?loaded=true(适合 OAuth 跳转)
– 等网络空闲(networkidle)
– 等某个按钮出现(CSS 选择器)
– 等 JS 变量就绪(如 window.apiReady === true)
→ 条件满足才继续,快又稳。
✅ 文件全流程处理
– 点击「下载发票」→ 自动捕获下载完成事件 → 把 PDF 保存到指定路径
– 上传文件:upload 45 "/home/timi/invoice.xlsx"(45 是文件上传框的编号)
✅ 深度页面控制
– 清/设 Cookie、改 localStorage
– 模拟 iPhone 访问、开暗黑模式、假装在东京时区、伪造地理位置
– 运行任意 JS:查 console 错误、抓 XHR 请求、验证数据是否加载完成
✅ 截图 ≠ 截图,是“结构化快照”
– 全页截图(含滚动内容)
– 某个按钮/表格的局部截图
– 最关键的是 snapshot 命令:生成带语义的可访问性树(Accessibility Tree),AI 是靠这个“读懂”页面的,不是靠 OCR 识别像素——所以文字模糊、背景花也没关系。
真实场景:我每周都在用(已上线生产)
-
📈 竞品价格监控
每早 6 点自动访问 5 家官网 → 快照价格页 → 提取数字 → 写入 Notion 表格。
✅ 替代 30 分钟手工活,误差为 0。 -
📝 无 API 的供应商表单提交
AI 自动登录 → 填写采购单 → 提交 → 截图存证 → Slack 推送「已提交,截图见附件」。
✅ 不用求后端加接口,也不用等对方排期。 -
📄 自动下载月度发票
每周五下午 3 点进供应商后台 → 点「账单」→ 找最新 PDF → 下载 → 重命名为INV-202405-SUPPLIER.pdf→ 存入 NAS 对应文件夹。
✅ 20 秒做完,我全程不用碰电脑。 -
📊 日报截图直出
访问公司 Grafana / Looker 页面 → 等所有图表加载完 → 全页截图 → 自动插入飞书日报模板。
✅ 不用学 API、不配 token、不写 fetch,页面在哪,它就去哪。
RunLobster:让 OpenClaw 浏览器“开箱即用”
如果你自己部署 OpenClaw,得搞定:
– Linux 下装 Chromium + Playwright + Xvfb(虚拟显示)
– 配 CDP 端口、禁用沙箱、处理字体缺失……
→ 一不小心就卡在 Failed to launch browser。
而 RunLobster 直接帮你:
– 托管浏览器环境(版本、更新、安全策略全托管)
– 开箱即用:写一句“去检查官网有没有 404 链接”,它立刻执行
– 加安全层:防 SSRF(不能扫你内网)、每任务独立浏览器 Profile、自动清理临时文件
$49/月,如果你每月有 2 个以上重复浏览器操作,它一周就回本。
注意:这工具不是万能的(但知道坑在哪,就能绕开)
⚠️ CAPTCHA?它不会解
遇到验证码就卡住。解决方案:接入 Browserbase(自带打码)或人工介入,但 OpenClaw 本身不处理。
⚠️ 单页应用(SPA)要小心
Vue/React 页面频繁重渲染,可能导致快照编号失效。对策:在每个操作前加一次 snapshot(多 200ms,但稳)。
⚠️ 地理限制网站需代理
浏览器在哪运行,IP 就在哪。想爬日本站?得自己配代理,OpenClaw 不内置。
⚠️ 超大页面快照慢
含几千 DOM 节点的 BI 看板,snapshot 可能卡顿或截断。建议先用 CSS 选择器缩小范围(如只快照 .price-table 区域)。
⚠️ 不支持“真并行多浏览器”
一个 Agent 一次只用一个浏览器实例。如需同时刷 10 个网站,得建 10 个 Agent 并发跑(RunLobster 支持)。
总结一句话:
如果你还在为「没有 API 的网页」写 Selenium、维护 selector、加各种 sleep 和 try-catch——
OpenClaw 浏览器工具 + RunLobster,就是你现在最该试试的「免写代码浏览器机器人」。
它不取代单元测试,但它能每天帮你抢回 3–4 小时人肉时间。
直达网址:https://www.runlobster.com
