ASTRA：智能体轨迹与强化竞技场的自动合成

Tool Use Reinforcement Learning Data Synthesis Agent Training

摘要

大型语言模型作为工具增强型智能体应用于多步决策时，其鲁棒性训练仍具挑战。现有方法依赖人工干预、不可验证的模拟环境，且难以稳定支持长程多轮学习。本文提出 ASTRA，一个全自动端到端框架，通过可扩展的数据合成与可验证的强化学习训练工具增强型智能体。该框架包含两个组件：一是利用工具调用图拓扑合成多样化轨迹以培养通用工具能力；二是将问答痕迹转化为可执行、规则可验证的环境以支持确定性多轮强化学习。实验表明，ASTRA 在多个基准上达到最先进水平，兼具任务完成度与交互效率。

AI 推荐理由

论文核心解决工具增强型智能体的训练难题，通过自动化合成轨迹和环境提升工具使用能力。

研究机构

贝克语言与智能

论文信息

作者 Xiaoyu Tian, Haotian Wang, Shuaiting Chen, Hao Zhou, Kaichi Yu et al.

发布日期 2026-01-29

arXiv ID 2601.21558