强化学习 记忆更新 结构化记忆 Transformer 记忆重写
摘要

现实世界中的有效决策依赖于既稳定又适应性的记忆:环境随时间变化,智能体需要在长时域内保留相关信息,同时在情况变化时更新或覆盖过时内容。现有的强化学习(RL)基准和增强记忆的智能体主要关注记忆保留,而对同样关键的记忆重写能力研究较少。为弥补这一不足,我们引入了一个明确测试部分可观测环境下持续记忆更新的基准,并用其比较循环网络、基于Transformer和结构化记忆架构的表现。实验表明,尽管经典循环模型结构简单,但其在记忆重写任务中表现出更高的灵活性和鲁棒性,而现代结构化记忆和基于Transformer的智能体仅在特定条件下有效,且常在复杂任务中失败。这些发现揭示了当前方法的根本局限性,并强调了需要平衡稳定保留与适应性更新的记忆机制。本工作突出了这一被忽视的挑战,引入了评估基准,并为设计具有显式可训练遗忘机制的未来RL智能体提供了见解。

AI 推荐理由

论文核心聚焦于强化学习中的记忆更新机制,直接探讨记忆保留与重写能力的平衡问题。

论文信息
作者 Oleg Shchendrigin, Egor Cherepanov, Alexey K. Kovalev, Aleksandr I. Panov
发布日期 2026-01-21
arXiv ID 2601.15086
相关性评分 9/10 (高度相关)