稀疏注意力 KV缓存优化 模型压缩 Transformer架构
摘要

本文提出了一种名为HySparse的新架构,该架构在每个完整的注意力层之间交错多个稀疏注意力层。HySparse通过从先前的完整注意力层中直接推导出稀疏层的令牌选择和KV缓存,解决了现有稀疏注意力方法的两个基本限制。首先,传统方法通常依赖额外的代理来预测令牌重要性,增加了复杂度并可能导致性能不佳;而HySparse使用完整注意力层作为精确的“预言机”来识别重要令牌。其次,现有稀疏注意力设计往往减少了计算量但未节省KV缓存;HySparse使稀疏注意力层能够复用完整注意力的KV缓存,从而减少计算和内存消耗。实验表明,在7B密集模型和80B MoE模型上,HySparse均优于全注意力和混合SWA基线。特别是在80B MoE模型中,仅5层使用完整注意力,但HySparse仍实现了显著的性能提升,并将KV缓存存储减少了近10倍。

AI 推荐理由

论文涉及KV缓存共享与稀疏注意力机制,与Agent Memory相关但非核心主题。

论文信息
作者 Yizhao Gao, Jianyu Wei, Qihao Zhang, Yu Cheng, Shimao Chen et al.
发布日期 2026-02-03
arXiv ID 2602.03560
相关性评分 6/10 (相关)