摘要
本文提出 SWE-Master,一个开源且可复现的后训练框架,旨在构建高效的软件工程 Agent。该框架系统探索了完整的 Agent 开发流程,涵盖教师轨迹合成、数据整理、长视野监督微调、基于真实执行反馈的强化学习及推理框架设计。实验表明,从基础模型出发,该方法在 SWE-bench Verified 基准上取得了 61.4% 的解决率,显著优于现有开源基线;结合测试时缩放技术后,性能进一步提升至 70.8%,展现了强大的应用潜力。
AI 推荐理由
论文核心在于通过后训练框架提升 Agent 在软件工程领域的工具使用与任务解决技能。
研究机构
哈尔滨工业大学(深圳)
论文信息