思考要稠密而非冗长：用于高效推理的动态解耦条件优势

RLVR 推理效率思维链优化动态惩罚

摘要

可验证奖励的强化学习（RLVR）虽能激发强大的多步推理能力，但常导致生成轨迹过于冗长。现有的长度惩罚机制因基线稀释和难度 - 惩罚不匹配问题，严重损害准确率。本文提出动态解耦条件优势（DDCA）方法，将效率优化与正确性解耦。该方法仅在正确响应簇内计算长度优势以消除基线稀释，并利用群体通过率动态调整惩罚强度以适应问题难度。实验表明，DDCA 在保持或提升准确率的同时，显著减少了简单任务约 60%、困难任务超 20% 的生成令牌数。

AI 推荐理由

论文核心解决多步推理中的冗余问题，提出新算法优化推理效率与准确率平衡。

研究机构

北京理工大学深圳职业技术学院香港理工大学阿里巴巴集团

论文信息

作者 Keqin Peng, Yuanxin Ouyang, Xuebo Liu, Zhiliang Tian, Ruijian Han et al.

发布日期 2026-02-02

arXiv ID 2602.02099