摘要
有效的记忆管理对于大型语言模型代理完成长时程任务至关重要。近期研究尝试使用强化学习开发专门的记忆管理代理,但现有方法依赖最终任务性能作为主要奖励,导致奖励稀疏且信用分配无效,难以指导具体记忆操作。为此,我们提出Fine-Mem,一个统一的细粒度反馈对齐框架。首先,我们引入块级步奖励,通过辅助的块特定问答任务提供即时监督;其次,设计基于证据的奖励归因机制,通过将信用锚定到关键记忆操作来重新分配全局奖励。这些组件共同实现了稳定的策略优化,并使局部记忆操作与记忆的长期效用保持一致。在Memalpha和MemoryAgentBench上的实验表明,Fine-Mem在各种子任务中均优于强基线,具有良好的适应性和泛化能力。
AI 推荐理由
论文明确聚焦于长时记忆管理,提出Fine-Mem框架解决记忆操作的反馈对齐问题,属于Agent Memory核心研究。
论文信息