摘要
针对基于终端任务的智能体模型训练缺乏高质量长程交互数据的问题,本文提出 TerminalTraj 流水线。该方法通过筛选高质量仓库构建 Docker 执行环境,生成对齐的任务实例,并合成带有可执行验证代码的智能体轨迹。利用该流程,研究者在八个领域构建了 3.2 万个 Docker 镜像及 5 万余条经验证的轨迹。实验表明,基于此数据训练的模型在 TerminalBench 基准上性能显著提升,证明了其在增强 Agent 终端操作技能方面的有效性。
AI 推荐理由
论文核心在于构建终端操作轨迹数据集以训练 Agent 的工具使用与代码执行技能。
研究机构
曼彻斯特大学
量子研究多模态艺术项目组
社区:清华大学
论文信息