Code Agents Data Synthesis Self-Evolution Trajectory Diversity
摘要

随着代码大模型演变为工具交互智能体,其泛化能力受限于低质量合成数据及数量扩展的边际效应递减。本文提出 TDScaling,一种基于轨迹多样性扩展的数据合成框架,旨在通过多样性而非单纯数量提升性能。在固定训练预算下,增加轨迹多样性比增加数量带来更大收益。该框架整合了业务聚类机制、蓝图驱动的多智能体范式、基于熵的自适应进化机制以及沙盒代码工具,有效防止模式坍塌并缓解灾难性遗忘。实验表明,该方法在提升工具使用泛化性的同时增强了固有编码能力。

AI 推荐理由

论文提出自适应进化机制,通过多样性扩展提升 Agent 能力,核心在于自我改进与数据合成进化。

研究机构
SIAT, CAS UNSW Sydney Alibaba Group SUAT
论文信息
作者 Guhong Chen, Chenghao Sun, Cheng Fu, Qiyao Wang, Zhihong Huang et al.
发布日期 2026-02-03
arXiv ID 2602.03219
相关性评分 9/10 (高度相关)