摘要
推理大语言模型的后训练通常包含离线监督微调(SFT)和在线强化学习(RL)两个阶段。然而,现有 SFT 往往孤立优化,导致其数据分布与 RL 策略不匹配,进而削弱最终性能。本文提出 PEAR 方法,通过重要性采样重加权 SFT 损失,使模型更好地适配后续 RL。在多个推理游戏和数学任务上的实验表明,PEAR 显著提升了模型经过 RL 后的表现,AIME2025 通过率最高提升 14.6%。
AI 推荐理由
论文聚焦推理模型后训练,提出优化 SFT 以显著提升数学与逻辑推理任务在 RL 后的表现。
研究机构
伊利诺伊大学芝加哥分校
论文信息