D-CORE：激励大型推理模型在复杂工具使用中进行任务分解

Task Decomposition Tool Use Reinforcement Learning Large Reasoning Models

摘要

有效的工具使用与推理是大型推理模型（LRMs）解决复杂现实问题的关键能力。实证分析表明，当前 LRMs 在复杂工具场景中缺乏子任务分解能力，导致“懒惰推理”。为此，本文提出两阶段训练框架 D-CORE，首先通过自蒸馏激励模型的任务分解推理能力，随后利用多样性感知强化学习恢复其反思推理能力。实验显示，D-CORE 在不同基准和模型规模上均显著提升工具使用性能，其中 8B 模型准确率超越同类最佳模型 5.7%，14B 模型更是以更小规模超越 70B 模型，确立新状态。

AI 推荐理由

论文核心解决复杂工具使用中的任务分解问题，直接对应规划能力。

研究机构

阿里巴巴集团

论文信息

作者 Bowen Xu, Shaoyu Wu, Hao Jiang, Kai Liu, Xin Chen et al.

发布日期 2026-02-02

arXiv ID 2602.02160