摘要
随着大语言模型智能体处理长周期任务能力的提升,评估其在经济系统中的表现日益重要。现有基准多关注单智能体与被动环境的交互,而经济系统本质上是多智能体的,要求智能体在长期内自主沟通、谈判和交易以实现自身目标。本文提出 CoffeeBench,这是一个用于评估异构多智能体经济中长周期表现的基准。在该环境中,农民、烘焙商和零售商在 90 天模拟期内自主运营,通过管理现金、库存和定价来最大化累计净收入。实验表明,高性能模型能更积极地进行长期交互规划,而部分模型则表现出“空闲漂移”的规划失败模式。
AI 推荐理由
论文聚焦长周期任务中的多步规划与经济行为,评估代理在复杂环境下的目标导向能力。
研究机构
Sakana AI, KPMG AZSA LLC
论文信息