Hermes Agent 能不能看懂本地或网上的图片?如何上传图片让它进行视觉深度分析?

如今的超级助理如果是个“瞎子”,那将是极大的遗憾。Hermes Agent 早已深度整合了多模态大模型(Multimodal LLMs)的视觉能力。只要你在 `hermes setup` 中为其配置了支持视觉推理的强大模型核心(如 GPT-4o, Claude 3.5 Sonnet 或是本地基于 LLaVA 架构的开源多模态模型),它就拥有了极其敏锐的眼睛。如果你在终端 TUI 界面中,大多数现代系统支持直接将硬盘里的一张复杂的工程图纸、或者一张全是密麻数字的财务发票截图的绝对路径拖拽进输入框(或者使用特定的 `/image` 快捷指令加载)。按下回车后,庞大的图像数据会被迅速编码发给模型。你可以直接指令它:“帮我把这张发票里的商品明细全部提取成 Markdown 表格”,或者“看这张网站的截图,帮我用前端代码一比一把它写出来”。视觉能力的加持,让它的代理边界得到了极其恐怖的扩展。

作加

类似文章