【browser-use】让大模型真正“动手上网”:一个专为浏览器自动化设计的智能代理框架
browser-use 是一个专为大语言模型(LLM)设计的开源浏览器自动化框架,它让 AI 不仅能“说”出操作步骤,还能真正驱动浏览器完成点击、填表、搜索、购物等真实网页任务,解决了 LLM 缺乏执行能力、难以与动态网页环境可靠交互的核心痛点。
主要功能与特性:
– ✅ 开箱即用的智能代理(Agent):内置 Agent 类,只需传入自然语言任务和 LLM 实例,即可自动解析页面、规划动作、执行操作。
– ✅ 多模型支持:原生集成 ChatBrowserUse(专为浏览器任务优化)、ChatGoogle(Gemini)、ChatAnthropic(Claude),也支持本地 Ollama 模型。
– ✅ 灵活部署选择:既可完全本地运行(需 Chromium),也可无缝切换至托管式「Browser Use Cloud」,获得更强隐身性、CAPTCHA 绕过与代理轮换能力。
– ✅ 命令行快速调试(CLI):提供 browser-use open / click / type / screenshot 等指令,浏览器常驻内存,支持秒级迭代。
– ✅ 可扩展工具系统:支持用装饰器 @tools.action 注册自定义 Python 工具(如调用 API、读写文件),扩展代理能力边界。
– ✅ 模板化快速启动:通过 uvx browser-use init --template default 一键生成可运行示例脚本,含 default/advanced/tools 多种模板。
安装与快速上手:
uv init && uv add browser-use && uv sync
uvx browser-use install # 如未安装 Chromium,运行此命令自动下载
运行第一个任务(查找本仓库 star 数):
from browser_use import Agent, Browser, ChatBrowserUse
import asyncio
async def main():
browser = Browser()
agent = Agent(
task="Find the number of stars of the browser-use repo",
llm=ChatBrowserUse(),
browser=browser
)
await agent.run()
if __name__ == "__main__":
asyncio.run(main())
适合以下场景与用户:
– 开发者与自动化工程师:需要将 LLM 接入真实网页流程(如自动投简历、比价下单、数据抓取),且要求稳定、可调试、可集成到现有 Python 工程中;
– AI 应用构建者:希望快速验证“AI 助手能否真正帮用户完成端到端网页任务”,例如个人助理、客服机器人、RPA 增强;
– 技术产品经理与研究员:探索浏览器自动化在复杂任务(如跨站表单填写、多步认证流程)中的可行性与瓶颈;
– Claude Code 等编码助手用户:通过安装 Skill 插件,直接在 IDE 内启用 AI 驱动的浏览器操作。
总结:browser-use 不是一个通用爬虫或 Selenium 封装,而是一套以“LLM 作为决策大脑 + 浏览器作为执行肢体”为设计哲学的完整代理系统。它大幅降低了让大模型“动手做事”的门槛,尤其在真实、动态、带交互的网页环境中表现出明确的设计聚焦。开源免费、文档详实、云服务与本地模式协同清晰,是当前少有的兼顾易用性、可扩展性与生产就绪度的浏览器自动化框架。建议访问其主页获取更详细信息。
