Reinforcement Learning LLM Reasoning Diversity Optimization Policy Optimization
摘要

基于可验证奖励的强化学习虽能显著提升大语言模型(LLM)的推理性能,但常导致输出多样性降低。受边际收益递减原理启发,本文提出一种基于核化相似度的集合级多样性目标。该方法通过计算采样轨迹的留一法边际贡献,将其作为插件式优势整形项融入策略优化。理论分析证实,稀有轨迹对全局多样性的边际贡献更高。实验表明,该算法在多种基准测试的 Pass@1 和 Pass@K 指标上均优于强基线。

AI 推荐理由

论文核心提出集合级策略优化方法,旨在提升 LLM 在数学等任务中的推理多样性与性能。

研究机构
中国科学院
论文信息
作者 Chenyi Li, Yuan Zhang, Bo Wang, Guoqing Ma, Wei Tang et al.
发布日期 2026-02-01
arXiv ID 2602.01062
相关性评分 9/10 (高度相关)