hermes-agent量产系统

【page-agent】让网页界面听懂人话,这个纯前端工具几行代码就能搞定

项目概述

这是一个驻留在网页内部的 GUI 智能体,它通过解析纯文本 DOM 来实现对网页界面的自然语言控制。它解决了传统网页自动化需要依赖浏览器扩展、Python 环境或无头浏览器的痛点,让一切交互直接在网页内通过几行 JavaScript 代码即可完成。

主要特性

  • 极简集成:无需安装浏览器扩展、Python 环境或无头浏览器,仅需引入页面内的 JavaScript 脚本,一切操作都在当前网页内发生。
  • 基于文本的 DOM 操作:摒弃了截图识别和多模态大模型,直接通过文本解析网页结构,无需特殊权限。
  • 自带大模型(BYOLLM):支持接入你自己的大语言模型,灵活控制底层逻辑。
  • 跨页任务扩展:提供可选的 Chrome 扩展,支持跨越浏览器标签页的多页面 Agent 任务。
  • 外部控制支持:提供 MCP Server(Beta版),允许外部的 Agent 客户端直接控制浏览器。

快速体验与安装

如果你想最快地体验它的效果,可以使用官方提供的免费演示大模型,只需在网页中加入一行 HTML 代码即可(仅供技术评估,需同意其相关条款):

国内镜像源:

<script src="https://registry.npmmirror.com/page-agent/1.11.0/files/dist/iife/page-agent.demo.js"></script>

对于正式的项目开发,推荐通过 NPM 进行安装:

npm install page-agent

安装后,在代码中导入并初始化,即可用自然语言下达指令:

import { PageAgent } from 'page-agent'

const agent = new PageAgent({
  model: 'qwen3.5-plus',
  baseURL: 'https://dashscope.aliyuncs.com/compatible-mode/v1',
  apiKey: 'YOUR_API_KEY',
  language: 'en-US',
})

await agent.execute('Click the login button')

适用场景与目标用户

  • SaaS 产品开发者:无需重构后端,只需几行代码就能为自己的产品快速接入 AI 副驾功能。
  • 企业内部系统(ERP/CRM)用户与开发者:将原本需要点击20次的繁琐表单填写流程,简化为一句自然语言指令,极大提升后台操作效率。
  • 无障碍辅助工具开发者:让任何网页应用都能通过自然语言甚至语音指令进行交互,配合屏幕阅读器,消除操作壁垒,目标用户包含视障或操作不便的人群。
  • 多页面自动化需求者:需要跨浏览器标签页执行复杂任务的 Agent 开发者,或希望通过 MCP 协议从外部控制浏览器的客户端开发者。

总结

这个项目巧妙地将复杂的 GUI 自动化简化到了前端层面,通过基于文本的 DOM 操作避开了截图识别的高成本和低效率,对前端开发者极其友好,接入门槛极低。它明确了自身“客户端网页增强”而非“服务端重度自动化”的定位,逻辑清晰且实用。对于需要更深度定制和了解最新进展的开发者,建议访问其主页获取更详细信息。

类似文章