由轨迹引导：修复并奖励工具使用轨迹以实现工具集成推理

Tool-Integrated Reasoning Reinforcement Learning Trajectory Repair Agent Skills

摘要

工具集成推理（TIR）使大语言模型能通过交互外部工具解决复杂任务，但现有方法依赖高质量合成轨迹及稀疏结果奖励，监督信号有限且有偏。为此，本文提出 AutoTraj，一种通过修复和奖励工具使用轨迹自动学习 TIR 的两阶段框架。在监督微调阶段，生成多候选轨迹并评估，保留高质量者，利用 LLM 修复低质量者，构建合成数据集及偏好数据集。在强化学习阶段，基于偏好数据训练轨迹级奖励模型，结合结果与格式奖励，显式引导优化可靠的 TIR 行为。实验证明该方法在真实基准上有效。

AI 推荐理由

论文核心研究工具使用轨迹的修复与奖励机制，直接优化 Agent 的工具集成推理能力。

研究机构

南京大学计算机科学与工程学院，东南大学-南大智能计算联合实验室中国科学院自动化研究所，中国科学院大学，中国科学院国家网络信息中心

论文信息

作者 Siyu Gong, Linan Yue, Weibo Gao, Fangzhou Yao, Shimin Di et al.

发布日期 2026-01-30

arXiv ID 2601.23032