RLVR GRPO Mathematical Reasoning Training Stability
摘要

可验证奖励的强化学习(RLVR)能有效提升大语言模型的推理能力,但主流方法如群相对策略优化(GRPO)面临估计方差高及梯度消失等稳定性挑战。本文提出经验贝叶斯策略优化(EBPO),利用全局统计信息正则化局部基线,动态平衡局部与全局数据。理论证明 EBPO 能降低均方误差并避免惩罚信号消失。实验表明,EBPO 在 AIME 和 OlympiadBench 等推理基准上优于 GRPO,尤其在小群组规模下表现出卓越的训练稳定性。

AI 推荐理由

论文核心旨在通过优化 RL 算法提升 LLM 的推理能力,并在数学推理基准上取得显著效果。

研究机构
Meta AI
论文信息
作者 Kevin Han, Yuhang Zhou, Mingze Gao, Gedi Zhou, Serena Li et al.
发布日期 2026-02-05
arXiv ID 2602.05165
相关性评分 9/10 (高度相关)