Software Engineering Agents Environment Construction Reinforcement Learning SWE-Bench
摘要

本文提出 SWE-Universe,一个可扩展的高效框架,旨在从 GitHub 拉取请求中自动构建真实的软件工程可验证环境。为解决自动构建中的低产出、验证弱及高成本等挑战,该框架利用基于定制模型训练的构建代理,采用迭代自验证和环内黑客检测机制,确保生成高保真、可验证的任务。借此方法,我们将多语言软件工程环境规模扩展至百万级(807,693 个)。通过在大规模代理中期训练和强化学习中应用这些环境,显著提升了模型性能,并在 SWE-Bench Verified 上取得了 75.3% 的分数。本研究为下一代编码智能体的发展提供了关键资源与方法论。

AI 推荐理由

论文核心在于构建环境以训练和提升 Agent 的软件工程技能,直接服务于编码能力的增强。

研究机构
Qwen Team, Alibaba Group
论文信息
作者 Mouxiang Chen, Lei Zhang, Yunlong Feng, Xuwu Wang, Wenting Zhao et al.
发布日期 2026-02-02
arXiv ID 2602.02361
相关性评分 9/10 (高度相关)