摘要
随着大语言模型作为自主智能体的部署,其需在开放式交互任务中进行长程协调。现有评估往往忽视这一需求。本文提出 alem,一个基于 JAX 的开放式多智能体协调基准,内置程序生成的协作任务、软专业化、通信机制及可控难度,涵盖探索、制作、交易和战斗等长程生存场景。实验评估了 13 个现代大语言模型在零样本设置下的表现。结果显示,当前智能体在协调任务上表现不佳,平均归一化回报仅约 6%。消融实验表明,通信是协调成功的关键因素,而记忆与推理有助于维持多步计划。该研究指出协调是独立于单智能体能力的瓶颈,并提供了可量化的测试平台。
AI 推荐理由
论文核心评估多智能体在长程任务中的协调、角色分配及共享计划执行能力。
研究机构
University of Edinburgh
University of Oxford
University College London
论文信息