【browser-use】让大模型真正“动手上网”：一个专为浏览器自动化设计的智能代理框架

🚀 工具网址： https://github.com/browser-use/browser-use

browser-use 是一个专为大语言模型（LLM）设计的开源浏览器自动化框架，它让 AI 不仅能“说”出操作步骤，还能真正驱动浏览器完成点击、填表、搜索、购物等真实网页任务，解决了 LLM 缺乏执行能力、难以与动态网页环境可靠交互的核心痛点。

主要功能与特性：
– ✅ 开箱即用的智能代理（Agent）：内置 Agent 类，只需传入自然语言任务和 LLM 实例，即可自动解析页面、规划动作、执行操作。
– ✅ 多模型支持：原生集成 ChatBrowserUse（专为浏览器任务优化）、ChatGoogle（Gemini）、ChatAnthropic（Claude），也支持本地 Ollama 模型。
– ✅ 灵活部署选择：既可完全本地运行（需 Chromium），也可无缝切换至托管式「Browser Use Cloud」，获得更强隐身性、CAPTCHA 绕过与代理轮换能力。
– ✅ 命令行快速调试（CLI）：提供 browser-use open / click / type / screenshot 等指令，浏览器常驻内存，支持秒级迭代。
– ✅ 可扩展工具系统：支持用装饰器 @tools.action 注册自定义 Python 工具（如调用 API、读写文件），扩展代理能力边界。
– ✅ 模板化快速启动：通过 uvx browser-use init --template default 一键生成可运行示例脚本，含 default/advanced/tools 多种模板。

安装与快速上手：

uv init && uv add browser-use && uv sync  
uvx browser-use install  # 如未安装 Chromium，运行此命令自动下载

运行第一个任务（查找本仓库 star 数）：

from browser_use import Agent, Browser, ChatBrowserUse  
import asyncio  

async def main():  
    browser = Browser()  
    agent = Agent(  
        task="Find the number of stars of the browser-use repo",  
        llm=ChatBrowserUse(),  
        browser=browser  
    )  
    await agent.run()  

if __name__ == "__main__":  
    asyncio.run(main())

适合以下场景与用户：
– 开发者与自动化工程师：需要将 LLM 接入真实网页流程（如自动投简历、比价下单、数据抓取），且要求稳定、可调试、可集成到现有 Python 工程中；
– AI 应用构建者：希望快速验证“AI 助手能否真正帮用户完成端到端网页任务”，例如个人助理、客服机器人、RPA 增强；
– 技术产品经理与研究员：探索浏览器自动化在复杂任务（如跨站表单填写、多步认证流程）中的可行性与瓶颈；
– Claude Code 等编码助手用户：通过安装 Skill 插件，直接在 IDE 内启用 AI 驱动的浏览器操作。

总结：browser-use 不是一个通用爬虫或 Selenium 封装，而是一套以“LLM 作为决策大脑 + 浏览器作为执行肢体”为设计哲学的完整代理系统。它大幅降低了让大模型“动手做事”的门槛，尤其在真实、动态、带交互的网页环境中表现出明确的设计聚焦。开源免费、文档详实、云服务与本地模式协同清晰，是当前少有的兼顾易用性、可扩展性与生产就绪度的浏览器自动化框架。建议访问其主页获取更详细信息。

【browser-use】让大模型真正“动手上网”：一个专为浏览器自动化设计的智能代理框架

Midjourney 每月 200 块太肉疼？这款“国产显卡救星”，让你 0 成本画出 3D 大片！

【siyuan】一款兼顾隐私保护与块级精细管理的个人知识库工具

【skills】让 AI 编程助手“秒懂” Hugging Face 各类任务的标准化技能包

【openrag】一个开箱即用的智能文档搜索与对话平台

【uptime-kuma】一款轻量易用的自托管网站与服务可用性监控工具

【generative-ai】一套面向开发者的 Google 生成式 AI 实战资源集

类似文章