摘要
近期,基于可验证奖励的强化学习(RLVR)在提升大模型复杂任务推理能力方面成效显著,其中响应长度增长常被视为关键因素。然而,不同算法训练中长度变化模式差异巨大。本文深入分析主流 RLVR 算法组件,理论推导影响响应长度的因素并提出无偏长度序列策略优化(LUSPO)算法。该算法修正了组序列策略优化中的长度偏差,解决了长度坍塌问题。在数学及多模态推理基准上的实验表明,LUSPO 性能优于现有方法,代表了最新的优化策略。
AI 推荐理由
论文核心研究通过优化 RLVR 算法控制响应长度,从而显著提升复杂任务的推理能力。
研究机构
Meituan
论文信息