Long-context Code Agent Benchmark Multi-turn Interaction
摘要

本文提出 StaminaBench,旨在评估编码 Agent 的“耐力”,即其在失败前能连续处理多少轮交互请求。该基准模拟真实场景中长达数十至数百轮的对话式编程,要求 Agent 实现并修改 REST API 服务器。实验发现,现有模型通常在 5-6 轮后失败;引入测试反馈机制可将成功轮次提升 12 倍,且优秀的 Agent 框架对性能至关重要。该研究揭示了多轮交互中上下文保持与错误修正的挑战。

AI 推荐理由

论文核心研究 Agent 在长程交互中的状态保持与上下文管理能力,直接对应记忆机制。

研究机构
AWS Agentic AI
论文信息
作者 Vlad Sobal, Shuo Yang, Yuting Zhang, Wei Xia, Stefano Soatto
发布日期 2026-06-17
arXiv ID 2606.19613
相关性评分 8/10 (高度相关)