QuantLRM：通过微调信号对大型推理模型进行量化

model quantization large reasoning models fine-tuning signals LLM compression

摘要

本文研究了利用推理激励微调过程中的权重更新幅度作为信号，对大型推理模型（LRM）进行仅权重量化。作者提出“保护两端”假设，即最小和最大的权重更新比中间幅度的更新更重要。基于此，提出了 QuantLRM 方法，通过拟合受限二次函数来计算通道重要性。在四个推理基准上的实验表明，该方法显著提升了量化后 LRM 的性能，平均提升达 6.55%，且适用于非微调模型。

AI 推荐理由

论文针对大型推理模型（LRM）提出量化方法，核心目标是优化推理能力模型的压缩与性能。

研究机构

美国宾夕法尼亚州立大学

论文信息

作者 Nan Zhang, Eugene Kwek, Yusen Zhang, Muyu Pan, Suhang Wang et al.

发布日期 2026-01-31

arXiv ID 2602.02581