基准测试语言智能体中的开放式多智能体协调

Multi-Agent Systems Coordination Benchmark Long-Horizon Tasks

摘要

随着大语言模型作为自主智能体的部署，其需在开放式交互任务中进行长程协调。现有评估往往忽视这一需求。本文提出 alem，一个基于 JAX 的开放式多智能体协调基准，内置程序生成的协作任务、软专业化、通信机制及可控难度，涵盖探索、制作、交易和战斗等长程生存场景。实验评估了 13 个现代大语言模型在零样本设置下的表现。结果显示，当前智能体在协调任务上表现不佳，平均归一化回报仅约 6%。消融实验表明，通信是协调成功的关键因素，而记忆与推理有助于维持多步计划。该研究指出协调是独立于单智能体能力的瓶颈，并提供了可量化的测试平台。

AI 推荐理由

论文核心评估多智能体在长程任务中的协调、角色分配及共享计划执行能力。

研究机构

University of Edinburgh University of Oxford University College London

论文信息

作者 Kale-ab Abebe Tessera, Andras Szecsenyi, Cameron Barker, Alexander Rutherford, Davide Paglieri et al.

发布日期 2026-06-06

arXiv ID 2606.08340