摘要
大型推理模型虽能通过生成长思维链取得优异性能,但其中仅少量内容对答案预测有实质贡献,多数存在冗余。这种冗余在监督微调后会被放大,导致性能下降。为此,本文引入积分梯度归因量化令牌影响力,构建片段级指标以识别具有反思性的高质量推理片段。基于此提出的选择性学习框架,仅对关键片段进行微调并屏蔽无关部分损失。实验表明,该方法显著提升了模型的准确率与输出效率。
AI 推荐理由
论文核心针对长推理链冗余问题,提出基于归因的选择性学习框架,直接优化推理质量。
研究机构
南加州大学
论文信息