EMA 策略梯度：利用 EMA 锚点和 Top-k KL 驯化大语言模型的强化学习

Reinforcement Learning Policy Gradient Math Reasoning LLM Alignment

摘要

本文提出两种技术以优化大语言模型（LLM）的策略梯度算法。首先，用指数移动平均（EMA）替代固定锚点策略，类似深度 Q 学习中的目标网络；其次，引入 Top-k KL 估计器，实现精确 KL 与采样 KL 的灵活插值。理论推导证明了 EMA 锚点的稳定性条件，并表明 Top-k KL 估计器在任意 k 值下均能提供无偏的 KL 值和梯度。结合 GRPO 使用时，该方法在数学推理和代理智能体任务上显著提升了性能，特别是在 OlympiadBench 和多个多跳问答数据集上取得了突破性进展。

AI 推荐理由

论文核心是通过改进 RL 算法显著提升 LLM 在数学推理及复杂问答任务中的表现。

研究机构

多伦多大学计算机科学系

论文信息

作者 Lunjun Zhang, Jimmy Ba

发布日期 2026-02-04

arXiv ID 2602.04417