daVinci-Dev: 面向代理的中间训练用于软件工程

摘要

近年来，大型语言模型（LLM）的能力前沿已从单轮代码生成转向代理式软件工程——一种模型自主导航、编辑和测试复杂代码库的范式。尽管后训练方法已成为代码代理的标准方法，但代理式中间训练（MT）仍因资源需求大而被严重忽视。为解决静态训练数据与真实开发环境中动态、反馈丰富的环境之间的分布不匹配问题，本文提出了一种系统性的代理式中间训练研究，确立了大规模有效代理开发的数据合成原则和训练方法。本文的核心方法是基于代理原生数据的监督，包括两种互补轨迹：保留代理完整信息流的上下文原生轨迹，以及从可执行代码库中收集的环境原生轨迹，提供深度和交互真实性。我们在`SWE-Bench Verified`上验证了模型的代理能力，并在使用少于一半中间训练标记（73.1B）的情况下，展示了优于之前开源软件工程中间训练方案`Kimi-Dev`的性能。

AI 推荐理由

论文涉及Agent在软件工程中的训练方法，提及动态环境与静态数据的分布不匹配问题，与Memory相关。

论文信息

作者 Ji Zeng, Dayuan Fu, Tiantian Mi, Yumin Zhuang, Yaxing Huang et al.

发布日期 2026-01-26

arXiv ID 2601.18418