通过难度感知强化学习缓解大型推理模型中的过度思考

Large Reasoning Models Reinforcement Learning Overthinking Mitigation Difficulty Awareness

摘要

大型推理模型（LRMs）通过模仿人类深度思维展现出卓越的复杂任务处理能力，但在简单任务中常因“过度思考”导致推理冗长和资源低效。现有研究多忽视任务难度感知的重要性。本文提出难度感知策略优化（DiPO），一种基于强化学习的训练框架。DiPO 鼓励模型自发建模任务复杂度，并结合难度信号增强的奖励函数，在惩罚冗长推理的同时兼顾性能与格式。实验表明，该方法能显著减少冗余 token，实现推理开销的自适应调整且不损失性能。

AI 推荐理由

论文核心针对大推理模型的过度思考问题，通过强化学习优化推理过程与资源分配。

研究机构

中国国家自然科学基金委员会

论文信息

作者 Qian Wan, Ziao Xu, Luona Wei, Xiaoxuan Shen, Jianwen Sun

发布日期 2026-01-29

arXiv ID 2601.21418