面向长推理轨迹选择性学习的片段级归因方法

Long Reasoning Traces Selective Learning Attribution Analysis Supervised Finetuning

摘要

大型推理模型虽能通过生成长思维链取得优异性能，但其中仅少量内容对答案预测有实质贡献，多数存在冗余。这种冗余在监督微调后会被放大，导致性能下降。为此，本文引入积分梯度归因量化令牌影响力，构建片段级指标以识别具有反思性的高质量推理片段。基于此提出的选择性学习框架，仅对关键片段进行微调并屏蔽无关部分损失。实验表明，该方法显著提升了模型的准确率与输出效率。

AI 推荐理由

论文核心针对长推理链冗余问题，提出基于归因的选择性学习框架，直接优化推理质量。

研究机构

南加州大学

论文信息

作者 Siyuan Wang, Yanchen Liu, Xiang Ren

发布日期 2026-01-31

arXiv ID 2602.00425