长上下文建模 注意力机制优化 混合架构 高效推理
摘要

随着大语言模型(LLMs)在超长上下文应用中的发展,Transformer架构的高计算和内存成本成为挑战。尽管现有的稀疏和线性注意力机制试图缓解这些问题,但通常需要在内存效率和模型性能之间进行权衡。本文提出MiniCPM-SALA,一种9B参数的混合架构,结合了稀疏注意力(InfLLM-V2)的高保真长上下文建模能力和线性注意力(Lightning Attention)的全局效率。通过采用层选择算法以1:3的比例整合这些机制,并使用混合位置编码(HyPE),该模型在长上下文任务中保持了效率和性能。此外,我们引入了一种低成本的持续训练框架,将预训练的Transformer模型转化为混合模型,相比从头训练减少了约75%的训练成本。大量实验表明,MiniCPM-SALA在保持与全注意力模型相当的一般能力的同时,提供了更高的效率。在单块NVIDIA A6000D GPU上,该模型在256K token序列长度时推理速度达到全注意力模型的3.5倍,并支持长达1M token的上下文长度,而传统全注意力8B模型由于内存限制无法达到这一规模。

AI 推荐理由

论文涉及长上下文建模中的注意力机制优化,与Agent Memory相关但非核心主题。

论文信息
作者 MiniCPM Team, Wenhao An, Yingfa Chen, Yewei Fang, Jiayi Li et al.
发布日期 2026-02-12
arXiv ID 2602.11761
相关性评分 6/10 (相关)