CoffeeBench：在异构多智能体经济中基准测试长周期 LLM 智能体

Multi-Agent Systems Long-Horizon Tasks Economic Simulation Benchmark

摘要

随着大语言模型智能体处理长周期任务能力的提升，评估其在经济系统中的表现日益重要。现有基准多关注单智能体与被动环境的交互，而经济系统本质上是多智能体的，要求智能体在长期内自主沟通、谈判和交易以实现自身目标。本文提出 CoffeeBench，这是一个用于评估异构多智能体经济中长周期表现的基准。在该环境中，农民、烘焙商和零售商在 90 天模拟期内自主运营，通过管理现金、库存和定价来最大化累计净收入。实验表明，高性能模型能更积极地进行长期交互规划，而部分模型则表现出“空闲漂移”的规划失败模式。

AI 推荐理由

论文聚焦长周期任务中的多步规划与经济行为，评估代理在复杂环境下的目标导向能力。

研究机构

Sakana AI, KPMG AZSA LLC

论文信息

作者 Issa Sugiura, Daichi Hattori, Kazuo Araragi, Keita Ogawa, Shota Onose et al.

发布日期 2026-06-15

arXiv ID 2606.16613