摘要
针对现有软件工程智能体依赖容器化执行反馈导致资源消耗大、维护困难的问题,本文提出 SWE-World 框架。该框架利用基于真实交互数据训练的 LLM surrogate 模型,预测中间执行结果与测试反馈,从而在无物理容器环境下实现智能体训练与评估。此设计保留了标准的智能体 - 环境交互循环,消除了昂贵环境构建成本,并支持测试时缩放(TTS)以优化多尝试策略。实验表明,该方法显著提升了模型在 SWE-bench Verified 上的表现。
AI 推荐理由
论文核心在于构建软件工程 Agent,通过模拟环境高效训练其代码修改与工具使用技能。
研究机构
清华大学人工智能研究院,北京,中国
论文信息