摘要
大型推理模型(LRMs)在复杂推理任务中表现出色,通常通过自我反思行为如自我批评和回溯实现。然而,并非所有反思都是有益的,许多仅停留在表面,无法显著提升原始答案质量并带来计算开销。本文识别并解决了LRMs中浅层反思的问题。首先提出自批评微调(SCFT),一种仅使用自生成批评来增强模型反思推理能力的训练框架。SCFT引导模型批评自身输出,通过拒绝采样筛选高质量批评,并基于批评目标进行微调。在此基础上,进一步引入基于有效反思奖励的强化学习(RLERR),利用SCFT初始化的高质量反思构建奖励信号,指导模型通过强化学习内化自我修正过程。在AIME2024和AIME2025两个具有挑战性的基准测试中,SCFT和RLERR显著提升了推理准确性和反思质量,优于现有最先进基线。
AI 推荐理由
论文涉及模型反思机制,与Agent Memory中的自我修正和记忆更新相关,但非核心主题。
论文信息