摘要
大型语言模型(LLM)代理通常基于完整的动作-观察历史进行决策,这引入了与任务无关的信息,容易导致冗余动作和更高的推理成本。本文提出了一种名为Progress-Aware Belief Update(PABU)的信念状态框架,通过显式建模任务进度并选择性保留过去动作和观察,来紧凑地表示代理的状态。在每一步中,代理预测自上一轮以来的相对进度,并决定是否存储新遇到的交互,仅基于保留的子集进行未来决策。在AgentGym基准中的八个环境中,使用相同的训练轨迹,PABU实现了81.0%的任务完成率,比基于完整历史的最先进(SoTA)模型高出23.9%。此外,PABU的面向进度的动作选择提高了效率,将平均交互步骤数减少到9.5,减少了26.9%。消融研究表明,显式进度预测和选择性保留对于鲁棒的信念学习和性能提升都是必要的。
AI 推荐理由
论文核心提出PABU记忆更新机制,直接针对Agent Memory优化,显著提升效率。
论文信息