摘要
可靠的基于 Docker 的环境构建是扩展软件工程智能体执行训练与评估的主要瓶颈。本文提出 DockSmith,一种专用的智能体 Docker 构建器,将环境构建视为核心智能体能力,涵盖长程工具使用、依赖推理及故障恢复。该模型在大规模执行轨迹上训练,引入了循环检测控制器和跨任务成功记忆机制。实验表明,DockSmith 在 Multi-Docker-Eval 基准上达到开源最先进水平,并显著提升了在 SWE-bench 等分布外任务上的泛化性能,证明了环境构建技能的广泛迁移价值。
AI 推荐理由
论文核心研究 Agent 构建 Docker 环境的技能,涉及长程工具使用与依赖推理。
研究机构
香港理工大学
论文信息