摘要
近年来,大型语言模型(LLM)的能力前沿已从单轮代码生成转向代理式软件工程——一种模型自主导航、编辑和测试复杂代码库的范式。尽管后训练方法已成为代码代理的标准方法,但代理式中间训练(MT)仍因资源需求大而被严重忽视。为解决静态训练数据与真实开发环境中动态、反馈丰富的环境之间的分布不匹配问题,本文提出了一种系统性的代理式中间训练研究,确立了大规模有效代理开发的数据合成原则和训练方法。本文的核心方法是基于代理原生数据的监督,包括两种互补轨迹:保留代理完整信息流的上下文原生轨迹,以及从可执行代码库中收集的环境原生轨迹,提供深度和交互真实性。我们在`SWE-Bench Verified`上验证了模型的代理能力,并在使用少于一半中间训练标记(73.1B)的情况下,展示了优于之前开源软件工程中间训练方案`Kimi-Dev`的性能。
AI 推荐理由
论文涉及Agent在软件工程中的训练方法,提及动态环境与静态数据的分布不匹配问题,与Memory相关。
论文信息