摘要
在Transformer中,上下文学习(ICL)作为一种在线关联记忆机制,被认为是其在复杂序列处理任务中表现优异的基础。然而,在门控线性注意力模型中,这种记忆具有固定容量且容易受到干扰,尤其是在处理长序列时。本文提出Palimpsa,一种自注意力模型,将ICL视为一个需要解决稳定性-可塑性困境的持续学习问题。Palimpsa采用贝叶斯元可塑性机制,其中每个注意力状态的可塑性与其重要性状态相关联,而该重要性状态由反映累积知识的先验分布支撑。我们证明了多种门控线性注意力模型可以作为特定的架构选择和后验近似,并指出Mamba2是Palimpsa的一个特例,其中遗忘占主导地位。这一理论联系使得任何非元可塑模型都可以转化为元可塑模型,显著扩展其记忆容量。实验表明,Palimpsa在Multi-Query Associative Recall(MQAR)基准测试和常识推理任务上均优于基线方法。
AI 推荐理由
论文核心研究基于注意力机制的模型中记忆机制(ICL)的稳定性与可塑性问题,提出Palimpsa模型以增强记忆能力。
论文信息