摘要
本文提出两种技术以优化大语言模型(LLM)的策略梯度算法。首先,用指数移动平均(EMA)替代固定锚点策略,类似深度 Q 学习中的目标网络;其次,引入 Top-k KL 估计器,实现精确 KL 与采样 KL 的灵活插值。理论推导证明了 EMA 锚点的稳定性条件,并表明 Top-k KL 估计器在任意 k 值下均能提供无偏的 KL 值和梯度。结合 GRPO 使用时,该方法在数学推理和代理智能体任务上显著提升了性能,特别是在 OlympiadBench 和多个多跳问答数据集上取得了突破性进展。
AI 推荐理由
论文核心是通过改进 RL 算法显著提升 LLM 在数学推理及复杂问答任务中的表现。
研究机构
多伦多大学计算机科学系
论文信息