SFT-RL 协同优化 推理能力增强 重要性采样 后训练策略
摘要

推理大语言模型的后训练通常包含离线监督微调(SFT)和在线强化学习(RL)两个阶段。然而,现有 SFT 往往孤立优化,导致其数据分布与 RL 策略不匹配,进而削弱最终性能。本文提出 PEAR 方法,通过重要性采样重加权 SFT 损失,使模型更好地适配后续 RL。在多个推理游戏和数学任务上的实验表明,PEAR 显著提升了模型经过 RL 后的表现,AIME2025 通过率最高提升 14.6%。

AI 推荐理由

论文聚焦推理模型后训练,提出优化 SFT 以显著提升数学与逻辑推理任务在 RL 后的表现。

研究机构
伊利诺伊大学芝加哥分校
论文信息
作者 Dylan Zhang, Yufeng Xu, Haojin Wang, Qingzhi Chen, Hao Peng
发布日期 2026-02-01
arXiv ID 2602.01058
相关性评分 9/10 (高度相关)