摘要
本文研究了利用推理激励微调过程中的权重更新幅度作为信号,对大型推理模型(LRM)进行仅权重量化。作者提出“保护两端”假设,即最小和最大的权重更新比中间幅度的更新更重要。基于此,提出了 QuantLRM 方法,通过拟合受限二次函数来计算通道重要性。在四个推理基准上的实验表明,该方法显著提升了量化后 LRM 的性能,平均提升达 6.55%,且适用于非微调模型。
AI 推荐理由
论文针对大型推理模型(LRM)提出量化方法,核心目标是优化推理能力模型的压缩与性能。
研究机构
美国宾夕法尼亚州立大学
论文信息