RKSC：面向多步大语言模型推理的感知推理 KV 缓存共享与置信早期退出

LLM Inference KV Cache Reasoning Acceleration Early Exit

摘要

本文提出 RKSC，一种无需训练的多分支大语言模型推理框架，旨在消除结构性冗余。该方法包含注意力相似度 KV 共享（ASKS），通过隐藏状态余弦相似度将前缀 KV 缓存广播至语义相似分支；以及置信门控早期退出（CGEE），在生成置信度高时跳过验证或在熵稳定时提前终止。此外，引入推理选择块缓存管理器（RSBCM）防止缓存无限增长。实验表明，RKSC 在多个模型和基准测试中显著加速推理，且错误率极低。

AI 推荐理由

论文针对多步推理场景优化，虽侧重推理加速系统，但核心服务于推理过程。

研究机构

Agency for Science, Technology and Research (A*STAR), Singapore

论文信息

作者 Anirudh Sekar

发布日期 2026-06-07

arXiv ID 2606.09937