摘要
大型语言模型(LLM)的扩展通常依赖增加参数量或测试时计算量,但这受限于边缘设备的资源。为此,本文提出 MeKi 系统,通过存储空间而非计算量来扩展 LLM 容量。MeKi 为每个 Transformer 层配备令牌级记忆专家,将预存语义知识注入生成过程。采用重参数化策略将训练参数折叠为紧凑查找表,将知识卸载至 ROM,从而在零推理延迟开销下解耦模型容量与计算成本。实验表明,MeKi 在同等推理速度下显著优于稠密基线模型。
AI 推荐理由
论文提出基于存储的记忆专家机制,核心在于利用记忆扩展模型能力,完全契合记忆主题。
研究机构
Samsung Research, Beijing, China
Samsung Research, South Korea
论文信息