摘要
大型语言模型(LLMs)现在处于搜索、辅助和智能体工作流的关键路径上,因此语义缓存对于降低推理成本和延迟至关重要。生产部署通常采用分层静态-动态设计:静态缓存由从日志中挖掘并经过离线验证的精选响应组成,动态缓存则在线填充。实践中,两个层级通常由单一嵌入相似度阈值控制,导致保守阈值会错过安全重用机会,而激进阈值可能带来语义错误响应的风险。本文提出了一种名为Krites的异步、由LLM判断的缓存策略,能够在不改变服务决策的前提下扩展静态覆盖范围。在关键路径上,Krites的行为与标准静态阈值策略完全一致。当提示符的最近静态邻居刚好低于静态阈值时,Krites异步调用LLM判断器以验证静态响应是否适用于新提示。通过验证的匹配项将被提升至动态缓存,使未来的重复和改写请求能够复用精选的静态答案,并随着时间推移扩大静态覆盖范围。在基于跟踪的模拟实验中,Krites相比调优基线,在对话流量和搜索类查询中将使用精选静态答案的请求数量提高了最多3.9倍,且关键路径延迟保持不变。
AI 推荐理由
论文核心研究语义缓存机制,属于Agent Memory系统设计范畴,直接优化静态与动态缓存策略。
论文信息