EBPO：用于稳定群相对策略优化的经验贝叶斯收缩

RLVR GRPO Mathematical Reasoning Training Stability

摘要

可验证奖励的强化学习（RLVR）能有效提升大语言模型的推理能力，但主流方法如群相对策略优化（GRPO）面临估计方差高及梯度消失等稳定性挑战。本文提出经验贝叶斯策略优化（EBPO），利用全局统计信息正则化局部基线，动态平衡局部与全局数据。理论证明 EBPO 能降低均方误差并避免惩罚信号消失。实验表明，EBPO 在 AIME 和 OlympiadBench 等推理基准上优于 GRPO，尤其在小群组规模下表现出卓越的训练稳定性。

AI 推荐理由

论文核心旨在通过优化 RL 算法提升 LLM 的推理能力，并在数学推理基准上取得显著效果。

研究机构

Meta AI

论文信息

作者 Kevin Han, Yuhang Zhou, Mingze Gao, Gedi Zhou, Serena Li et al.

发布日期 2026-02-05

arXiv ID 2602.05165