Agent训练 中间训练 软件工程 数据合成
摘要

近年来,大型语言模型(LLM)的能力前沿已从单轮代码生成转向代理式软件工程——一种模型自主导航、编辑和测试复杂代码库的范式。尽管后训练方法已成为代码代理的标准方法,但代理式中间训练(MT)仍因资源需求大而被严重忽视。为解决静态训练数据与真实开发环境中动态、反馈丰富的环境之间的分布不匹配问题,本文提出了一种系统性的代理式中间训练研究,确立了大规模有效代理开发的数据合成原则和训练方法。本文的核心方法是基于代理原生数据的监督,包括两种互补轨迹:保留代理完整信息流的上下文原生轨迹,以及从可执行代码库中收集的环境原生轨迹,提供深度和交互真实性。我们在`SWE-Bench Verified`上验证了模型的代理能力,并在使用少于一半中间训练标记(73.1B)的情况下,展示了优于之前开源软件工程中间训练方案`Kimi-Dev`的性能。

AI 推荐理由

论文涉及Agent在软件工程中的训练方法,提及动态环境与静态数据的分布不匹配问题,与Memory相关。

论文信息
作者 Ji Zeng, Dayuan Fu, Tiantian Mi, Yumin Zhuang, Yaxing Huang et al.
发布日期 2026-01-26
arXiv ID 2601.18418
相关性评分 6/10 (相关)