Reinforcement Learning Policy Gradient Math Reasoning LLM Alignment
摘要

本文提出两种技术以优化大语言模型(LLM)的策略梯度算法。首先,用指数移动平均(EMA)替代固定锚点策略,类似深度 Q 学习中的目标网络;其次,引入 Top-k KL 估计器,实现精确 KL 与采样 KL 的灵活插值。理论推导证明了 EMA 锚点的稳定性条件,并表明 Top-k KL 估计器在任意 k 值下均能提供无偏的 KL 值和梯度。结合 GRPO 使用时,该方法在数学推理和代理智能体任务上显著提升了性能,特别是在 OlympiadBench 和多个多跳问答数据集上取得了突破性进展。

AI 推荐理由

论文核心是通过改进 RL 算法显著提升 LLM 在数学推理及复杂问答任务中的表现。

研究机构
多伦多大学计算机科学系
论文信息
作者 Lunjun Zhang, Jimmy Ba
发布日期 2026-02-04
arXiv ID 2602.04417
相关性评分 9/10 (高度相关)