好的 SFT 优化 SFT 本身，更好的 SFT 为强化学习做准备

SFT-RL 协同优化推理能力增强重要性采样后训练策略

摘要

推理大语言模型的后训练通常包含离线监督微调（SFT）和在线强化学习（RL）两个阶段。然而，现有 SFT 往往孤立优化，导致其数据分布与 RL 策略不匹配，进而削弱最终性能。本文提出 PEAR 方法，通过重要性采样重加权 SFT 损失，使模型更好地适配后续 RL。在多个推理游戏和数学任务上的实验表明，PEAR 显著提升了模型经过 RL 后的表现，AIME2025 通过率最高提升 14.6%。

AI 推荐理由

论文聚焦推理模型后训练，提出优化 SFT 以显著提升数学与逻辑推理任务在 RL 后的表现。

研究机构

伊利诺伊大学芝加哥分校

论文信息

作者 Dylan Zhang, Yufeng Xu, Haojin Wang, Qingzhi Chen, Hao Peng

发布日期 2026-02-01

arXiv ID 2602.01058