超越 KL 散度：基于灵活 Bregman 散度的 LLM 推理策略优化

Policy Optimization Mathematical Reasoning Bregman Divergence LLM Training

摘要

现有群组策略优化方法仅使用 KL 散度进行正则化，限制了性能提升。本文提出基于群组的镜像策略优化（GBMPO）框架，将优化扩展至灵活的 Bregman 散度，涵盖手工设计的概率空间 L2 散度及学习型神经镜像映射。在 GSM8K 数学推理任务中，ProbL2-GRPO 准确率达 86.7%，较基线提升 5.5 个百分点；在 MBPP 代码生成中，神经镜像映射显著降低方差并提升效率。研究确立了散度选择作为 LLM 推理优化的关键设计维度。

AI 推荐理由

论文核心提出新策略优化框架，显著提升数学推理与代码生成任务表现。

研究机构

Lexsi Labs

论文信息

作者 Rui Yuan, Mykola Khandoga, Vinay Kumar Sankarapu

发布日期 2026-02-04

arXiv ID 2602.04380