RLVR GRPO Mathematical Reasoning Policy Optimization KL Divergence
摘要

基于验证奖励的强化学习(RLVR)是提升大语言模型推理能力的关键范式。现有方法如 GRPO 通常通过裁剪似然比来约束策略散度以确保更新稳定。本文提出了一种统一的裁剪框架,将现有方法概括为通用的策略散度概念,涵盖似然比和 KL 散度等度量。研究识别出 KL3 估计量作为关键的策略散度约束,理论上证明其等效于一种非对称比率裁剪,能在保持 GRPO 简洁性的同时促进更强探索。数学推理基准实验表明,引入 KL3 估计量显著提升了训练稳定性和最终性能。

AI 推荐理由

论文核心在于通过优化 RL 策略散度约束,显著提升 LLM 在数学推理任务上的能力与稳定性。

研究机构
清华大学 中国科学院自动化研究所
论文信息
作者 Qingyuan Wu, Yuhui Wang, Simon Sinong Zhan, Yanning Dai, Shilong Deng et al.
发布日期 2026-02-05
arXiv ID 2602.05494
相关性评分 9/10 (高度相关)