SetPO：面向多样性保持的 LLM 推理集合级策略优化

Reinforcement Learning LLM Reasoning Diversity Optimization Policy Optimization

摘要

基于可验证奖励的强化学习虽能显著提升大语言模型（LLM）的推理性能，但常导致输出多样性降低。受边际收益递减原理启发，本文提出一种基于核化相似度的集合级多样性目标。该方法通过计算采样轨迹的留一法边际贡献，将其作为插件式优势整形项融入策略优化。理论分析证实，稀有轨迹对全局多样性的边际贡献更高。实验表明，该算法在多种基准测试的 Pass@1 和 Pass@K 指标上均优于强基线。

AI 推荐理由

论文核心提出集合级策略优化方法，旨在提升 LLM 在数学等任务中的推理多样性与性能。

研究机构

中国科学院

论文信息

作者 Chenyi Li, Yuan Zhang, Bo Wang, Guoqing Ma, Wei Tang et al.

发布日期 2026-02-01

arXiv ID 2602.01062