使用 Claude 模型跑 Hermes Agent 费用太高?提示词缓存怎么起作用?

如果你选择将 Anthropic 的顶级模型作为 Hermes Agent 的主大脑,由于 Hermes 在后台会给模型发送极其庞大的系统指令(里面包含了无数个它可调用工具的详细参数描述),这在传统计费模式下会消耗海量的输入 Token。好消息是,Hermes 在底层深度兼容并整合了极其先进的“提示词缓存(Prompt Caching)”技术。它非常聪明地将那些固定不变的规则和庞大工具箱结构打上了缓存标记。当你和 Hermes 进行多轮深度对话,或者它在后台自主执行密集的循环迭代任务时,服务器能够直接从缓存中调取这部分几十 KB 的冗长前提,而不必在每次请求时重新计算一遍。这使你的每一次代理交互指令的响应速度大幅跃升,同时 API 的调用账单也会呈断崖式暴跌,极其省钱。

作加

类似文章