Large Reasoning Models Reinforcement Learning Overthinking Mitigation Difficulty Awareness
摘要

大型推理模型(LRMs)通过模仿人类深度思维展现出卓越的复杂任务处理能力,但在简单任务中常因“过度思考”导致推理冗长和资源低效。现有研究多忽视任务难度感知的重要性。本文提出难度感知策略优化(DiPO),一种基于强化学习的训练框架。DiPO 鼓励模型自发建模任务复杂度,并结合难度信号增强的奖励函数,在惩罚冗长推理的同时兼顾性能与格式。实验表明,该方法能显著减少冗余 token,实现推理开销的自适应调整且不损失性能。

AI 推荐理由

论文核心针对大推理模型的过度思考问题,通过强化学习优化推理过程与资源分配。

研究机构
中国国家自然科学基金委员会
论文信息
作者 Qian Wan, Ziao Xu, Luona Wei, Xiaoxuan Shen, Jianwen Sun
发布日期 2026-01-29
arXiv ID 2601.21418
相关性评分 9/10 (高度相关)