LLM推理优化 KV缓存管理 注意力机制 推理效率
摘要

大型推理模型(LRMs)通过显式生成推理轨迹来解决复杂问题,但在得出最终答案前会生成较长的推理过程,这导致了较大的内存占用和计算开销,限制了其效率。本文利用注意力图分析推理轨迹的影响,发现仅部分对决策至关重要的token引导模型走向最终答案,其余token贡献甚微。基于这一观察,本文提出了一种动态思考标记选择(DynTS)方法,在推理过程中仅保留这些关键token对应的键值(KV)缓存状态,移除冗余条目以优化效率。

AI 推荐理由

论文聚焦于推理过程中的关键token选择,优化KV缓存以提升效率,与Agent Memory相关但非唯一主题。

论文信息
作者 Zhenyuan Guo, Tong Chen, Wenlong Meng, Chen Gong, Xin Yu et al.
发布日期 2026-01-26
arXiv ID 2601.18383
相关性评分 7/10 (相关)