无偏长度序列策略优化：揭示并控制 RLVR 中的响应长度变化

RLVR Reasoning Policy Optimization Response Length

摘要

近期，基于可验证奖励的强化学习（RLVR）在提升大模型复杂任务推理能力方面成效显著，其中响应长度增长常被视为关键因素。然而，不同算法训练中长度变化模式差异巨大。本文深入分析主流 RLVR 算法组件，理论推导影响响应长度的因素并提出无偏长度序列策略优化（LUSPO）算法。该算法修正了组序列策略优化中的长度偏差，解决了长度坍塌问题。在数学及多模态推理基准上的实验表明，LUSPO 性能优于现有方法，代表了最新的优化策略。

AI 推荐理由

论文核心研究通过优化 RLVR 算法控制响应长度，从而显著提升复杂任务的推理能力。

研究机构

Meituan

论文信息

作者 Fanfan Liu, Youyang Yin, Peng Shi, Siqi Yang, Zhixiong Zeng et al.

发布日期 2026-02-05

arXiv ID 2602.05261