摘要
大型语言模型代理在通过工具解决现实问题方面展现出潜力,但通用智能受到高质量、长时域数据稀缺的限制。现有方法收集隐私受限的API日志或生成缺乏多样性的脚本交互,难以生成扩展能力所需的数据。我们提出AgentSkiller,一个全自动框架,用于合成跨真实且语义关联领域的多轮交互数据。该框架采用基于DAG的架构,具有显式状态转换以确保确定性和可恢复性。流程构建领域本体和以人为中心的实体图,通过服务蓝图定义工具接口,并为模型上下文协议服务器填充一致的数据库和严格的领域策略。跨领域融合机制将服务连接起来以模拟复杂任务。最后,流程通过验证解决方案路径、执行验证过滤并使用基于角色的模拟器生成查询来创建用户任务,从而实现自动部署。这产生了具有明确状态变化的可靠环境。为了证明有效性,我们合成了约11,000个交互样本;实验结果表明,在此数据集上训练的模型在函数调用方面显著优于基线,尤其是在大参数规模下。
AI 推荐理由
论文涉及Agent数据合成与环境构建,间接关联记忆机制,但非核心主题。
论文信息