从自进化合成数据到可验证奖励强化学习：后训练多轮交互式工具使用智能体

Self-Evolving Reinforcement Learning Tool-Using Agents Synthetic Data

摘要

针对多轮交互工具使用智能体后训练中高质量数据难以扩展及强化学习信号噪声问题，本文提出统一框架 EigenData。该系统采用分层多智能体引擎，合成带可执行检查器的工具落地对话，并通过闭环自进化过程更新提示词与工作流以提升可靠性。在此基础上，结合用户模型微调与基于轨迹的 GRPO 风格强化学习，实现了超越监督微调的性能。实验表明，该方法在无需昂贵人工标注的情况下，有效引导了复杂工具使用行为的自举与扩展。

AI 推荐理由

论文核心提出自进化数据代理与闭环机制，通过自我迭代生成高质量数据并优化策略。

研究机构

独立研究者清华大学

论文信息

作者 Jiaxuan Gao, Jiaao Chen, Chuyi He, Shusheng Xu, Di Jin et al.

发布日期 2026-01-30

arXiv ID 2601.22607