StaminaBench：对编码 Agent 进行超过 100 轮交互的压力测试

Long-context Code Agent Benchmark Multi-turn Interaction

摘要

本文提出 StaminaBench，旨在评估编码 Agent 的“耐力”，即其在失败前能连续处理多少轮交互请求。该基准模拟真实场景中长达数十至数百轮的对话式编程，要求 Agent 实现并修改 REST API 服务器。实验发现，现有模型通常在 5-6 轮后失败；引入测试反馈机制可将成功轮次提升 12 倍，且优秀的 Agent 框架对性能至关重要。该研究揭示了多轮交互中上下文保持与错误修正的挑战。

AI 推荐理由

论文核心研究 Agent 在长程交互中的状态保持与上下文管理能力，直接对应记忆机制。

研究机构

AWS Agentic AI

论文信息

作者 Vlad Sobal, Shuo Yang, Yuting Zhang, Wei Xia, Stefano Soatto

发布日期 2026-06-17

arXiv ID 2606.19613