Agent Memory LLM训练优化 缓存管理 推理效率
摘要

大型推理模型(LRMs)在复杂问题上表现出色,但面临效率瓶颈:基于强化学习的训练需要长序列展开以获取结果奖励,而自回归解码主导了时间和内存使用。尽管滑动窗口缓存策略可以限制内存,但会破坏长上下文推理并降低性能。本文提出渐进式思维编码(Progressive Thought Encoding),一种参数高效的微调方法,使LRMs能够在固定大小缓存下有效推理。通过逐步将中间推理过程编码为固定大小的向量表示,该方法消除了对完整缓存展开进行反向传播的需求,从而减少内存使用,并在推理过程中保持恒定内存。在Qwen2.5-3B-Instruct、Qwen2.5-7B-Instruct和DeepSeek-R1-Distill-Llama-8B等三个模型上进行实验,针对六个广泛使用的数学基准测试显示一致的提升效果:该方法在LoRA微调基础上平均提高19.3%,在未微调的LRMs基础上平均提高29.9%,在AIME2024/2025数据集上最高准确率提升达23.4%。这些结果表明,渐进式思维编码不仅提高了推理准确性,还在现实世界内存约束下显著提升了LRMs的强化学习训练效率和可扩展性。

AI 推荐理由

论文核心聚焦于通过固定大小缓存提升推理效率,直接涉及Agent Memory机制与优化。

论文信息
作者 Zeliang Zhang, Xiaodong Liu, Hao Cheng, Hao Sun, Chenliang Xu et al.
发布日期 2026-02-18
arXiv ID 2602.16839
相关性评分 8/10 (高度相关)