Agent Memory 编程代理 经验重用 基准测试 上下文学习
摘要

大型语言模型越来越多地被用作编程代理,以执行仓库级别的软件工程任务。尽管最近的基准测试评估了在真实代码库中的正确性,但它们大多将任务视为独立的,未评估代理是否能跨相关问题重用经验。因此,代理积累、检索和应用先前经验的能力以及由此带来的效率提升仍难以衡量。我们引入了SWE-ContextBench,这是一个专门设计用于明确评估编程代理中经验重用的基准测试。该基准基于SWE-Bench Lite,通过GitHub问题和拉取请求之间的实际依赖和引用关系,为300个基础任务增加了99个相关任务,形成具有共享上下文的任务序列。该基准从三个互补维度评估代理:预测准确性、时间效率和成本效率。利用SWE-ContextBench,我们研究了多种经验重用设置,包括由Oracle引导和自主检索,以及完整的执行轨迹和紧凑摘要。结果表明,正确选择的经验摘要可以提高解决准确性,并显著减少运行时间和标记成本,尤其是在较难的任务上。相比之下,未经筛选或错误选择的经验提供有限甚至负面的收益。这些发现突显了经验表示和检索质量的重要性,并确立了SWE-ContextBench作为研究编程代理中经验重用的原理性基准。

AI 推荐理由

论文探讨了编程代理中经验重用,涉及记忆的积累、检索与应用,属于Agent Memory相关研究。

论文信息
作者 Jared Zhu, Minhao Hu, Junde Wu
发布日期 2026-02-09
arXiv ID 2602.08316
相关性评分 7/10 (相关)