SWE Context Bench: 一个用于代码中上下文学习的基准测试

摘要

大型语言模型越来越多地被用作编程代理，以执行仓库级别的软件工程任务。尽管最近的基准测试评估了在真实代码库中的正确性，但它们大多将任务视为独立的，未评估代理是否能跨相关问题重用经验。因此，代理积累、检索和应用先前经验的能力以及由此带来的效率提升仍难以衡量。我们引入了SWE-ContextBench，这是一个专门设计用于明确评估编程代理中经验重用的基准测试。该基准基于SWE-Bench Lite，通过GitHub问题和拉取请求之间的实际依赖和引用关系，为300个基础任务增加了99个相关任务，形成具有共享上下文的任务序列。该基准从三个互补维度评估代理：预测准确性、时间效率和成本效率。利用SWE-ContextBench，我们研究了多种经验重用设置，包括由Oracle引导和自主检索，以及完整的执行轨迹和紧凑摘要。结果表明，正确选择的经验摘要可以提高解决准确性，并显著减少运行时间和标记成本，尤其是在较难的任务上。相比之下，未经筛选或错误选择的经验提供有限甚至负面的收益。这些发现突显了经验表示和检索质量的重要性，并确立了SWE-ContextBench作为研究编程代理中经验重用的原理性基准。

AI 推荐理由

论文探讨了编程代理中经验重用，涉及记忆的积累、检索与应用，属于Agent Memory相关研究。

论文信息

作者 Jared Zhu, Minhao Hu, Junde Wu

发布日期 2026-02-09

arXiv ID 2602.08316