model quantization large reasoning models fine-tuning signals LLM compression
摘要

本文研究了利用推理激励微调过程中的权重更新幅度作为信号,对大型推理模型(LRM)进行仅权重量化。作者提出“保护两端”假设,即最小和最大的权重更新比中间幅度的更新更重要。基于此,提出了 QuantLRM 方法,通过拟合受限二次函数来计算通道重要性。在四个推理基准上的实验表明,该方法显著提升了量化后 LRM 的性能,平均提升达 6.55%,且适用于非微调模型。

AI 推荐理由

论文针对大型推理模型(LRM)提出量化方法,核心目标是优化推理能力模型的压缩与性能。

研究机构
美国宾夕法尼亚州立大学
论文信息
作者 Nan Zhang, Eugene Kwek, Yusen Zhang, Muyu Pan, Suhang Wang et al.
发布日期 2026-01-31
arXiv ID 2602.02581
相关性评分 9/10 (高度相关)