LLM Memory Construction Reinforcement Learning Dialogue Systems
摘要

在长期对话中保持一致性仍然是LLM的一个基本挑战,因为标准检索机制通常无法捕捉历史状态的时间演变。虽然记忆增强框架提供了一种结构化的替代方案,但现有系统依赖于封闭源模型的静态提示或受到稀疏奖励训练范式的限制。我们引入了MemBuilder,一种强化学习框架,用于训练模型通过属性密集奖励协调多维记忆构建。MemBuilder解决了两个关键挑战:(1)稀疏轨迹级奖励:我们采用合成会话级问题生成,在扩展轨迹中提供密集的中间奖励;(2)多维记忆归因:我们引入了基于贡献感知梯度加权的方法,根据每个组件的下游影响进行策略更新。实验结果表明,MemBuilder使一个4B参数模型能够超越最先进的封闭源基线,在长期对话基准测试中表现出强大的泛化能力。

AI 推荐理由

论文直接聚焦于LLM的长期记忆构建,提出MemBuilder框架,属于Agent Memory核心研究。

论文信息
作者 Zhiyu Shen, Ziming Wu, Fuming Lai, Shaobing Lian, Yanghui Rao
发布日期 2026-01-09
arXiv ID 2601.05488
相关性评分 9/10 (高度相关)