摘要
可验证奖励的强化学习(RLVR)广泛用于提升多领域推理能力,但仅基于结果的标量奖励往往稀疏且信息量少,尤其在失败样本上无法揭示推理失败原因。本文研究如何利用更丰富的语言反馈引导失败样本的 RLVR 训练,并将其转化为可训练的学习信号。具体提出了一种多轮反馈引导的强化学习框架,包含三个机制:由反馈触发的动态多轮再生、用于轮内与跨轮优化的互补学习信号,以及结构化反馈注入推理过程。在 OpenR1-Math 数据上的训练表明,该方法在域内表现优于监督微调和 RLVR 基线,并具有良好的域外泛化能力。
AI 推荐理由
论文核心在于利用语言反馈增强 RLVR,直接针对提升模型在数学等领域的推理能力。
研究机构
DSTC, Tsinghua University, Beijing, China
论文信息