摘要
多智能体LLM系统通常生成多个候选响应,并由LLM裁判进行聚合。为减少预填充阶段的主导成本,近期工作提倡在部分共享上下文中复用KV缓存,并报告了生成代理的显著加速效果。本文表明,这些效率提升并未均匀地转移到以裁判为中心的推理中。在GSM8K、MMLU和HumanEval数据集上,我们发现对执行代理有效的复用策略可能会严重干扰裁判行为:最终任务准确率可能看似稳定,但裁判的选择与密集预填充结果高度不一致。我们通过裁判一致性率(JCR)量化了这一风险,并提供了诊断结果,显示复用系统性地削弱了跨候选注意力,尤其是对后期候选块的影响较大。我们的消融实验进一步证明,显式的跨候选交互对于保留密集预填充决策至关重要。总体而言,我们的结果识别出KV缓存复用的一个先前被忽视的失效模式,并突出了以裁判为中心的推理作为一个需要专门、风险意识系统设计的独特领域。
AI 推荐理由
论文核心研究KV缓存复用在多智能体系统中的失效问题,直接涉及Agent Memory机制。
论文信息