LLM Inference KV Cache Reasoning Acceleration Early Exit
摘要

本文提出 RKSC,一种无需训练的多分支大语言模型推理框架,旨在消除结构性冗余。该方法包含注意力相似度 KV 共享(ASKS),通过隐藏状态余弦相似度将前缀 KV 缓存广播至语义相似分支;以及置信门控早期退出(CGEE),在生成置信度高时跳过验证或在熵稳定时提前终止。此外,引入推理选择块缓存管理器(RSBCM)防止缓存无限增长。实验表明,RKSC 在多个模型和基准测试中显著加速推理,且错误率极低。

AI 推荐理由

论文针对多步推理场景优化,虽侧重推理加速系统,但核心服务于推理过程。

研究机构
Agency for Science, Technology and Research (A*STAR), Singapore
论文信息
作者 Anirudh Sekar
发布日期 2026-06-07
arXiv ID 2606.09937
相关性评分 8/10 (高度相关)