摘要
本文提出 StaminaBench,旨在评估编码 Agent 的“耐力”,即其在失败前能连续处理多少轮交互请求。该基准模拟真实场景中长达数十至数百轮的对话式编程,要求 Agent 实现并修改 REST API 服务器。实验发现,现有模型通常在 5-6 轮后失败;引入测试反馈机制可将成功轮次提升 12 倍,且优秀的 Agent 框架对性能至关重要。该研究揭示了多轮交互中上下文保持与错误修正的挑战。
AI 推荐理由
论文核心研究 Agent 在长程交互中的状态保持与上下文管理能力,直接对应记忆机制。
研究机构
AWS Agentic AI
论文信息