LLM Agent Memory Management Reinforcement Learning Efficiency Optimization
摘要

在多轮智能体与环境交互过程中管理智能体的思维和观察是提升其效率的一种新兴策略。然而现有研究通常将整个交互轨迹视为同等重要,忽视了不同回合中思维必要性和观察效用的差异性。为此,我们首先定量分析了思维和观察对智能体效果和效率的影响。基于研究结果,我们提出了Agent-Omit,一种统一的训练框架,使LLM智能体能够自适应地省略冗余的思维和观察。具体而言,我们首先合成少量冷启动数据,包括单轮和多轮省略场景,以微调智能体的省略行为。此外,我们引入了一种基于省略感知的智能体强化学习方法,结合双采样机制和定制化的省略奖励,以激励智能体的自适应省略能力。理论上,我们证明了我们的省略策略的偏差由KL散度上界限定。实验结果表明,在五个智能体基准测试中,我们构建的Agent-Omit-8B模型性能可与七个前沿LLM智能体相媲美,并在效率与效果的权衡上优于七种高效的LLM智能体方法。

AI 推荐理由

论文核心研究LLM Agent在交互过程中对冗余思维和观察的自适应省略,属于Agent Memory机制的核心内容。

论文信息
作者 Yansong Ning, Jun Fang, Naiqiang Tan, Hao Liu
发布日期 2026-02-04
arXiv ID 2602.04284
相关性评分 9/10 (高度相关)