摘要
大型推理模型(LRMs)通过模仿人类深度思维展现出卓越的复杂任务处理能力,但在简单任务中常因“过度思考”导致推理冗长和资源低效。现有研究多忽视任务难度感知的重要性。本文提出难度感知策略优化(DiPO),一种基于强化学习的训练框架。DiPO 鼓励模型自发建模任务复杂度,并结合难度信号增强的奖励函数,在惩罚冗长推理的同时兼顾性能与格式。实验表明,该方法能显著减少冗余 token,实现推理开销的自适应调整且不损失性能。
AI 推荐理由
论文核心针对大推理模型的过度思考问题,通过强化学习优化推理过程与资源分配。
研究机构
中国国家自然科学基金委员会
论文信息