用于大型推理模型高效推理的动态思考标记选择

LLM推理优化 KV缓存管理注意力机制推理效率

摘要

大型推理模型（LRMs）通过显式生成推理轨迹来解决复杂问题，但在得出最终答案前会生成较长的推理过程，这导致了较大的内存占用和计算开销，限制了其效率。本文利用注意力图分析推理轨迹的影响，发现仅部分对决策至关重要的token引导模型走向最终答案，其余token贡献甚微。基于这一观察，本文提出了一种动态思考标记选择（DynTS）方法，在推理过程中仅保留这些关键token对应的键值（KV）缓存状态，移除冗余条目以优化效率。

AI 推荐理由

论文聚焦于推理过程中的关键token选择，优化KV缓存以提升效率，与Agent Memory相关但非唯一主题。

论文信息

作者 Zhenyuan Guo, Tong Chen, Wenlong Meng, Chen Gong, Xin Yu et al.

发布日期 2026-01-26

arXiv ID 2601.18383