摘要
随着代码大模型演变为工具交互智能体,其泛化能力受限于低质量合成数据及数量扩展的边际效应递减。本文提出 TDScaling,一种基于轨迹多样性扩展的数据合成框架,旨在通过多样性而非单纯数量提升性能。在固定训练预算下,增加轨迹多样性比增加数量带来更大收益。该框架整合了业务聚类机制、蓝图驱动的多智能体范式、基于熵的自适应进化机制以及沙盒代码工具,有效防止模式坍塌并缓解灾难性遗忘。实验表明,该方法在提升工具使用泛化性的同时增强了固有编码能力。
AI 推荐理由
论文提出自适应进化机制,通过多样性扩展提升 Agent 能力,核心在于自我改进与数据合成进化。
研究机构
SIAT, CAS
UNSW Sydney
Alibaba Group
SUAT
论文信息