MulFeRL：在多轮循环中利用语言反馈增强强化学习

Reinforcement Learning Reasoning Enhancement Verbal Feedback Math Reasoning

摘要

可验证奖励的强化学习（RLVR）广泛用于提升多领域推理能力，但仅基于结果的标量奖励往往稀疏且信息量少，尤其在失败样本上无法揭示推理失败原因。本文研究如何利用更丰富的语言反馈引导失败样本的 RLVR 训练，并将其转化为可训练的学习信号。具体提出了一种多轮反馈引导的强化学习框架，包含三个机制：由反馈触发的动态多轮再生、用于轮内与跨轮优化的互补学习信号，以及结构化反馈注入推理过程。在 OpenR1-Math 数据上的训练表明，该方法在域内表现优于监督微调和 RLVR 基线，并具有良好的域外泛化能力。

AI 推荐理由

论文核心在于利用语言反馈增强 RLVR，直接针对提升模型在数学等领域的推理能力。

研究机构

DSTC, Tsinghua University, Beijing, China

论文信息

作者 Xuancheng Li, Haitao Li, Yujia Zhou, YiqunLiu, Qingyao Ai

发布日期 2026-01-30

arXiv ID 2601.22900