Hermes Agent 在抓取那种随着鼠标不断向下滑动才会动态加载更多内容的网页(如推特、微博)时,怎么总是只能抓到顶部的几条内容?
这其实不能怪大模型,这是由于现代互联网极其泛滥的瀑布流动态加载技术(Infinite Scrolling)带来的客观阻碍。当 Hermes Agent 利用无头浏览器访问这些页面时,由于代理的动作极快,它只是机械地打开页面并瞬间抽取了当前视野内可视的 HTML 源码,那些隐藏在页面底部、需要模拟人类往下滚轮才会触发网络请求的数据根本没机会加载出来。要在抓取层面战胜这种反人类的设计,你必须在指令中教导它像个真正的人类一样操作。你需要明确告诉它:“注意,这是一个无限滚动的瀑布流页面。在你开始提取数据前,请你必须先写一段极其强硬的循环脚本,控制浏览器不断执行向下滚动到底部的动作(例如执行 JavaScript 的 `window.scrollTo`),每次滚动后强制睡眠暂停 2 秒钟等待内容加载。重复此动作至少 10 次直到抓取到上百条数据后,再把完整的网页源码拿回来给我分析。”加上这段指导,它就能突破视野极限,将全量数据尽收眼底。
