参数化记忆 持续学习 Transformer 灾难性遗忘 模型扩展
摘要

本文旨在通过一种新型参数化记忆机制连接测试时训练。我们提出了Locas,一种局部支持的参数化记忆结构,其设计借鉴了现代Transformer中的FFN模块,能够灵活地合并到模型参数中,并支持高效的持续学习。我们讨论了两种主要变体:一种采用传统两层MLP设计,具有更清晰的理论保证;另一种与当前最先进的LLM共享GLU-FFN结构,便于附加到现有模型以实现参数和计算效率高的持续学习。关键在于,我们展示了通过合理初始化此类低秩侧向FFN风格的记忆(利用模型参数、激活值和/或梯度进行原理化初始化)对于快速收敛、提升泛化能力和防止灾难性遗忘至关重要。我们在PG-19全书语言建模和LoCoMo长上下文对话问答任务上验证了该记忆机制。在最低情况下,仅增加0.02%的参数,Locas-GLU即可存储过去上下文信息,同时保持较小的上下文窗口。此外,我们还通过比较MMLU评估测试了模型在使用Locas记忆整本书后的一般能力损失。结果表明,Locas能够将过去的上下文永久化为参数知识,同时最小化对模型原有内部知识的灾难性遗忘。

AI 推荐理由

论文核心研究Locas参数化记忆机制,明确涉及Agent Memory的设计与实现。

论文信息
作者 Sidi Lu, Zhenwen Liang, Dongyang Ma, Yan Wang, Haitao Mi et al.
发布日期 2026-02-04
arXiv ID 2602.05085
相关性评分 9/10 (高度相关)