揭示隐式优势对称性：为何 GRPO 在探索与难度适应上举步维艰

RLVR GRPO LLM Reasoning Exploration Strategy Curriculum Learning

摘要

基于可验证奖励的强化学习（RLVR），特别是 GRPO，已成为激发大语言模型推理能力的标准方法，但其在探索效率和难度适应性方面仍面临挑战。本文指出，这些瓶颈源于群相对优势估计中固有的隐式优势对称性，导致正确与错误轨迹权重严格对称，阻碍了新解的探索，并隐含地优先处理中等难度样本。为此，作者提出非对称 GRAE（A-GRAE），通过动态调节探索激励和样本难度焦点，在七个基准测试中显著提升了 GRPO 及其变体在 LLM 和多模态模型上的表现。

AI 推荐理由

论文核心研究通过改进 RL 算法（GRPO）来增强 LLM 的推理能力，解决探索与难度适应问题。

研究机构

香港大学清华大学中山大学

论文信息

作者 Zhiqi Yu, Zhangquan Chen, Mengting Liu, Heye Zhang, Liangqiong Qu

发布日期 2026-02-05

arXiv ID 2602.05548