Tool-Integrated Reasoning Reinforcement Learning Trajectory Repair Agent Skills
摘要

工具集成推理(TIR)使大语言模型能通过交互外部工具解决复杂任务,但现有方法依赖高质量合成轨迹及稀疏结果奖励,监督信号有限且有偏。为此,本文提出 AutoTraj,一种通过修复和奖励工具使用轨迹自动学习 TIR 的两阶段框架。在监督微调阶段,生成多候选轨迹并评估,保留高质量者,利用 LLM 修复低质量者,构建合成数据集及偏好数据集。在强化学习阶段,基于偏好数据训练轨迹级奖励模型,结合结果与格式奖励,显式引导优化可靠的 TIR 行为。实验证明该方法在真实基准上有效。

AI 推荐理由

论文核心研究工具使用轨迹的修复与奖励机制,直接优化 Agent 的工具集成推理能力。

研究机构
南京大学计算机科学与工程学院,东南大学-南大智能计算联合实验室 中国科学院自动化研究所,中国科学院大学,中国科学院国家网络信息中心
论文信息
作者 Siyu Gong, Linan Yue, Weibo Gao, Fangzhou Yao, Shimin Di et al.
发布日期 2026-01-30
arXiv ID 2601.23032
相关性评分 9/10 (高度相关)