Hermes Agent 能不能看懂本地或网上的图片？如何上传图片让它进行视觉深度分析？

如今的超级助理如果是个“瞎子”，那将是极大的遗憾。Hermes Agent 早已深度整合了多模态大模型（Multimodal LLMs）的视觉能力。只要你在 `hermes setup` 中为其配置了支持视觉推理的强大模型核心（如 GPT-4o, Claude 3.5 Sonnet 或是本地基于 LLaVA 架构的开源多模态模型），它就拥有了极其敏锐的眼睛。如果你在终端 TUI 界面中，大多数现代系统支持直接将硬盘里的一张复杂的工程图纸、或者一张全是密麻数字的财务发票截图的绝对路径拖拽进输入框（或者使用特定的 `/image` 快捷指令加载）。按下回车后，庞大的图像数据会被迅速编码发给模型。你可以直接指令它：“帮我把这张发票里的商品明细全部提取成 Markdown 表格”，或者“看这张网站的截图，帮我用前端代码一比一把它写出来”。视觉能力的加持，让它的代理边界得到了极其恐怖的扩展。

Hermes Agent 能不能看懂本地或网上的图片？如何上传图片让它进行视觉深度分析？

自己用 Hermes Agent 调教好的复杂技能，如何导出并分享给其他人使用？

在终端使用 Hermes Agent 时，怎么快速翻看上面几百行的历史对话？

Hermes Agent 在后台处理多个并发的子任务时，主线程突然崩溃退出怎么恢复？

怎么让 Hermes Agent 极其精确地记录它执行每次任务所耗费的时间和 Token 数量，以生成财务报表？

Hermes Agent 在自动执行底层脚本时弹出了系统的管理员密码授权框，需要同意吗？

如何关闭 Hermes Agent 的上下文缓存功能？有什么副作用？

类似文章