摘要
基于验证奖励的强化学习(RLVR)是提升大语言模型推理能力的关键范式。现有方法如 GRPO 通常通过裁剪似然比来约束策略散度以确保更新稳定。本文提出了一种统一的裁剪框架,将现有方法概括为通用的策略散度概念,涵盖似然比和 KL 散度等度量。研究识别出 KL3 估计量作为关键的策略散度约束,理论上证明其等效于一种非对称比率裁剪,能在保持 GRPO 简洁性的同时促进更强探索。数学推理基准实验表明,引入 KL3 估计量显著提升了训练稳定性和最终性能。
AI 推荐理由
论文核心在于通过优化 RL 策略散度约束,显著提升 LLM 在数学推理任务上的能力与稳定性。
研究机构
清华大学
中国科学院自动化研究所
论文信息