摘要
大型语言模型(LLMs)在长序列任务中面临显著的性能瓶颈,这源于自注意力机制固有的计算复杂性和内存开销。为解决这些问题,我们提出了一种新颖且高效的混合架构AllMem,该架构结合了滑动窗口注意力(SWA)与非线性测试时训练(TTT)记忆网络。AllMem使模型能够有效扩展到超长上下文,同时减轻灾难性遗忘问题。这种方法不仅克服了线性记忆模型的表示限制,还显著减少了长序列推理过程中的计算和内存占用。此外,我们实现了一种内存高效的微调策略,用记忆增强的滑动窗口层替换预训练模型中的标准注意力层。这一框架使得任何现成的预训练LLM都能高效地转换为基于AllMem的架构。实证评估表明,我们的4k窗口模型在37k LongBench上几乎无损失,仅比全注意力模型下降0.83。此外,在128k上下文的InfiniteBench上,我们的8k窗口变体优于全注意力模型,验证了我们参数化记忆在降低噪声并保持鲁棒长距离建模方面的有效性,而无需全局注意力的高昂成本。
AI 推荐理由
论文核心聚焦于基于记忆的长上下文建模架构,明确涉及Memory机制与系统设计。
论文信息