LLM 缓存机制 工具调用 Agent Memory 系统优化
摘要

近年来,大语言模型(LLMs)的进步革新了网络应用,使其能够通过自然语言接口实现智能搜索、推荐和助手服务。工具调用扩展了LLMs与外部API交互的能力,显著提升了其实用性。尽管已有研究通过采用传统的计算机系统技术(如并行和异步执行)来提升工具调用性能,但重复或冗余的工具调用请求问题仍未得到充分解决。缓存是解决这一问题的经典方案,但由于请求语义异构、工作负载动态变化以及新鲜度要求不同,传统缓存策略在LLM工具调用场景中效果不佳。为此,本文提出ToolCaching,一种面向LLM工具调用系统的高效特征驱动且自适应的缓存框架。该框架系统地整合语义和系统级特征,评估请求的缓存可能性并估算缓存价值。其核心VAAC算法结合基于老虎机的准入机制与价值驱动的多因素淘汰策略,综合考虑请求频率、近期性和缓存价值。在合成和公开工具调用工作负载上的大量实验表明,ToolCaching结合VAAC相比标准策略可使缓存命中率提高11%,延迟降低34%,有效加速了LLM工具调用的实际应用。

AI 推荐理由

论文提出ToolCaching框架,涉及缓存机制以优化LLM工具调用,与Agent Memory相关但非唯一主题。

论文信息
作者 Yi Zhai, Dian Shen, Junzhou Luo, Bin Yang
发布日期 2026-01-20
arXiv ID 2601.15335
相关性评分 7/10 (相关)