摘要
尽管混合专家(MoE)通过条件计算扩展了模型容量,但Transformer缺乏原生的知识检索机制,迫使它们通过计算低效地模拟检索。为了解决这一问题,我们引入了条件记忆作为补充的稀疏轴,并通过Engram模块实现,该模块现代化了经典的N-gram嵌入以实现O(1)查找。通过建立稀疏性分配问题,我们发现了一种U型扩展规律,优化了神经计算(MoE)与静态记忆(Engram)之间的权衡。在该规律指导下,我们将Engram扩展至270亿参数,在保持参数和FLOPs相同的情况下优于基线模型。实验表明,Engram不仅提升了知识检索能力,还在一般推理、代码和数学领域表现出显著提升。分析显示,Engram减轻了主干网络早期层的静态重构负担,有效加深了网络结构,同时释放了注意力资源用于全局上下文处理,显著提升了长上下文检索性能。此外,Engram还具备运行时预取能力,开销极小。
AI 推荐理由
论文核心提出条件记忆机制,直接针对LLM的Memory系统设计,具有明确的创新性和相关性。
论文信息