摘要
近年来,大型语言模型(LLM)代理在执行需要大量工具调用的复杂多轮任务方面取得了进展,但提示缓存对这类任务的效益尚未被充分研究。本文对OpenAI、Anthropic和Google三家主要LLM提供商的提示缓存策略进行了全面评估,比较了三种缓存方法,并在DeepResearch Bench基准上测试了其效果。结果表明,提示缓存可显著降低API成本并提升首次响应时间。研究还发现,通过合理控制缓存块布局可以更一致地提高性能,而全上下文缓存可能反而增加延迟。此外,研究揭示了不同提供商在缓存策略上的差异。
AI 推荐理由
论文重点研究了提示缓存对代理任务的影响,涉及记忆机制优化和成本控制。
论文信息