RLVR GRPO LLM Reasoning Exploration Strategy Curriculum Learning
摘要

基于可验证奖励的强化学习(RLVR),特别是 GRPO,已成为激发大语言模型推理能力的标准方法,但其在探索效率和难度适应性方面仍面临挑战。本文指出,这些瓶颈源于群相对优势估计中固有的隐式优势对称性,导致正确与错误轨迹权重严格对称,阻碍了新解的探索,并隐含地优先处理中等难度样本。为此,作者提出非对称 GRAE(A-GRAE),通过动态调节探索激励和样本难度焦点,在七个基准测试中显著提升了 GRPO 及其变体在 LLM 和多模态模型上的表现。

AI 推荐理由

论文核心研究通过改进 RL 算法(GRPO)来增强 LLM 的推理能力,解决探索与难度适应问题。

研究机构
香港大学 清华大学 中山大学
论文信息
作者 Zhiqi Yu, Zhangquan Chen, Mengting Liu, Heye Zhang, Liangqiong Qu
发布日期 2026-02-05
arXiv ID 2602.05548
相关性评分 9/10 (高度相关)