Policy Optimization Mathematical Reasoning Bregman Divergence LLM Training
摘要

现有群组策略优化方法仅使用 KL 散度进行正则化,限制了性能提升。本文提出基于群组的镜像策略优化(GBMPO)框架,将优化扩展至灵活的 Bregman 散度,涵盖手工设计的概率空间 L2 散度及学习型神经镜像映射。在 GSM8K 数学推理任务中,ProbL2-GRPO 准确率达 86.7%,较基线提升 5.5 个百分点;在 MBPP 代码生成中,神经镜像映射显著降低方差并提升效率。研究确立了散度选择作为 LLM 推理优化的关键设计维度。

AI 推荐理由

论文核心提出新策略优化框架,显著提升数学推理与代码生成任务表现。

研究机构
Lexsi Labs
论文信息
作者 Rui Yuan, Mykola Khandoga, Vinay Kumar Sankarapu
发布日期 2026-02-04
arXiv ID 2602.04380
相关性评分 9/10 (高度相关)