摘要
本文提出了 TickingCollabBench,一个基于 Minecraft 的多智能体基准测试,用于评估时间敏感的互补协作任务。该基准反映了真实世界协作的四个核心特征:智能体异构性、强制协作、动态环境及严格的实时约束。为此,作者开发了 TickingCollab 框架,支持生成多样化动态环境,并抽象底层 API 以声明式 YAML 规范任务。此外,设计了可行性感知的自动化基准生成流水线,利用 LLM 生成任务配置并通过验证器过滤无效项。评估表明,语言延迟及部分可观测性下的协调难度导致 LLM 在动态环境中频繁失败。
AI 推荐理由
论文聚焦多智能体在动态环境下的协作规划,涉及任务分解与实时约束下的目标导向行为。
研究机构
Microsoft Research, Asia
论文信息