LLM token skipping long-context inference efficiency optimization attention mechanism
摘要

长上下文推理增强了大语言模型(LLMs)的推理能力,但带来了显著的计算开销。基于token的方法如剪枝和跳过在减少推理延迟方面表现出巨大潜力,但仍存在结构优化不足、选择标准过时和冗余干扰等问题,导致速度-精度权衡不佳。为了解决这些问题,我们提出了一种无需训练的框架,称为自预测token跳过(SPTS),用于高效的长上下文LLM推理。具体而言,受跳过前目标层影响的启发,我们设计了两种选择性token跳过策略,包括针对多头注意力的局部注意力探测(PAP)和针对前馈网络的低秩变换探测(LTP)。前者通过部分前向注意力计算选择信息性token,后者构建一个低秩代理网络以预测token变换。此外,多阶段延迟剪枝(MSDP)策略重新分配跳过预算,并逐层逐步移除冗余token。大量实验表明,我们的方法有效,分别实现了预填充和端到端生成高达2.46倍和2.29倍的加速,同时保持最先进的准确性。

AI 推荐理由

论文涉及长上下文推理中的token跳过机制,与Agent Memory的高效管理相关,但非核心研究。

论文信息
作者 Zimeng Wu, Donghao Wang, Chaozhe Jin, Jiaxin Chen, Yunhong Wang
发布日期 2026-01-19
arXiv ID 2601.13155
相关性评分 6/10 (相关)