摘要
本文提出 RKSC,一种无需训练的多分支大语言模型推理框架,旨在消除结构性冗余。该方法包含注意力相似度 KV 共享(ASKS),通过隐藏状态余弦相似度将前缀 KV 缓存广播至语义相似分支;以及置信门控早期退出(CGEE),在生成置信度高时跳过验证或在熵稳定时提前终止。此外,引入推理选择块缓存管理器(RSBCM)防止缓存无限增长。实验表明,RKSC 在多个模型和基准测试中显著加速推理,且错误率极低。
AI 推荐理由
论文针对多步推理场景优化,虽侧重推理加速系统,但核心服务于推理过程。
研究机构
Agency for Science, Technology and Research (A*STAR), Singapore
论文信息