摘要
基于可验证奖励的强化学习(RLVR),特别是 GRPO,已成为激发大语言模型推理能力的标准方法,但其在探索效率和难度适应性方面仍面临挑战。本文指出,这些瓶颈源于群相对优势估计中固有的隐式优势对称性,导致正确与错误轨迹权重严格对称,阻碍了新解的探索,并隐含地优先处理中等难度样本。为此,作者提出非对称 GRAE(A-GRAE),通过动态调节探索激励和样本难度焦点,在七个基准测试中显著提升了 GRPO 及其变体在 LLM 和多模态模型上的表现。
AI 推荐理由
论文核心研究通过改进 RL 算法(GRPO)来增强 LLM 的推理能力,解决探索与难度适应问题。
研究机构
香港大学
清华大学
中山大学
论文信息