Tool Use Reinforcement Learning Data Synthesis Agent Training
摘要

大型语言模型作为工具增强型智能体应用于多步决策时,其鲁棒性训练仍具挑战。现有方法依赖人工干预、不可验证的模拟环境,且难以稳定支持长程多轮学习。本文提出 ASTRA,一个全自动端到端框架,通过可扩展的数据合成与可验证的强化学习训练工具增强型智能体。该框架包含两个组件:一是利用工具调用图拓扑合成多样化轨迹以培养通用工具能力;二是将问答痕迹转化为可执行、规则可验证的环境以支持确定性多轮强化学习。实验表明,ASTRA 在多个基准上达到最先进水平,兼具任务完成度与交互效率。

AI 推荐理由

论文核心解决工具增强型智能体的训练难题,通过自动化合成轨迹和环境提升工具使用能力。

研究机构
贝克语言与智能
论文信息
作者 Xiaoyu Tian, Haotian Wang, Shuaiting Chen, Hao Zhou, Kaichi Yu et al.
发布日期 2026-01-29
arXiv ID 2601.21558
相关性评分 9/10 (高度相关)