摘要
基于可验证奖励的强化学习虽能显著提升大语言模型(LLM)的推理性能,但常导致输出多样性降低。受边际收益递减原理启发,本文提出一种基于核化相似度的集合级多样性目标。该方法通过计算采样轨迹的留一法边际贡献,将其作为插件式优势整形项融入策略优化。理论分析证实,稀有轨迹对全局多样性的边际贡献更高。实验表明,该算法在多种基准测试的 Pass@1 和 Pass@K 指标上均优于强基线。
AI 推荐理由
论文核心提出集合级策略优化方法,旨在提升 LLM 在数学等任务中的推理多样性与性能。
研究机构
中国科学院
论文信息