SWE-Master：通过后训练释放软件工程 Agent 的潜力

Software Engineering Agent Post-Training Reinforcement Learning SWE-bench

摘要

本文提出 SWE-Master，一个开源且可复现的后训练框架，旨在构建高效的软件工程 Agent。该框架系统探索了完整的 Agent 开发流程，涵盖教师轨迹合成、数据整理、长视野监督微调、基于真实执行反馈的强化学习及推理框架设计。实验表明，从基础模型出发，该方法在 SWE-bench Verified 基准上取得了 61.4% 的解决率，显著优于现有开源基线；结合测试时缩放技术后，性能进一步提升至 70.8%，展现了强大的应用潜力。

AI 推荐理由

论文核心在于通过后训练框架提升 Agent 在软件工程领域的工具使用与任务解决技能。

研究机构

哈尔滨工业大学（深圳）

论文信息

作者 Huatong Song, Lisheng Huang, Shuang Sun, Jinhao Jiang, Ran Le et al.

发布日期 2026-02-03

arXiv ID 2602.03411