Long Reasoning Traces Selective Learning Attribution Analysis Supervised Finetuning
摘要

大型推理模型虽能通过生成长思维链取得优异性能,但其中仅少量内容对答案预测有实质贡献,多数存在冗余。这种冗余在监督微调后会被放大,导致性能下降。为此,本文引入积分梯度归因量化令牌影响力,构建片段级指标以识别具有反思性的高质量推理片段。基于此提出的选择性学习框架,仅对关键片段进行微调并屏蔽无关部分损失。实验表明,该方法显著提升了模型的准确率与输出效率。

AI 推荐理由

论文核心针对长推理链冗余问题,提出基于归因的选择性学习框架,直接优化推理质量。

研究机构
南加州大学
论文信息
作者 Siyuan Wang, Yanchen Liu, Xiang Ren
发布日期 2026-01-31
arXiv ID 2602.00425
相关性评分 9/10 (高度相关)