摘要
有效的工具使用与推理是大型推理模型(LRMs)解决复杂现实问题的关键能力。实证分析表明,当前 LRMs 在复杂工具场景中缺乏子任务分解能力,导致“懒惰推理”。为此,本文提出两阶段训练框架 D-CORE,首先通过自蒸馏激励模型的任务分解推理能力,随后利用多样性感知强化学习恢复其反思推理能力。实验显示,D-CORE 在不同基准和模型规模上均显著提升工具使用性能,其中 8B 模型准确率超越同类最佳模型 5.7%,14B 模型更是以更小规模超越 70B 模型,确立新状态。
AI 推荐理由
论文核心解决复杂工具使用中的任务分解问题,直接对应规划能力。
研究机构
阿里巴巴集团
论文信息