摘要
大型推理模型(LRMs)通过显式生成推理轨迹来解决复杂问题,但在得出最终答案前会生成较长的推理过程,这导致了较大的内存占用和计算开销,限制了其效率。本文利用注意力图分析推理轨迹的影响,发现仅部分对决策至关重要的token引导模型走向最终答案,其余token贡献甚微。基于这一观察,本文提出了一种动态思考标记选择(DynTS)方法,在推理过程中仅保留这些关键token对应的键值(KV)缓存状态,移除冗余条目以优化效率。
AI 推荐理由
论文聚焦于推理过程中的关键token选择,优化KV缓存以提升效率,与Agent Memory相关但非唯一主题。
论文信息