多智能体系统 具身AI 视觉-语言模型 协作机器人
摘要

近年来,多模态大语言模型和视觉-语言-动作模型的发展显著推动了具身人工智能的进步。随着领域向更复杂的任务场景过渡,多智能体系统框架成为实现可扩展、高效和协作解决方案的关键。这一转变主要由三个因素驱动:智能体能力的提升、通过任务委托提高系统效率以及增强人与智能体之间的交互。为应对多智能体协作带来的挑战,我们提出了多智能体机器人系统(MARS)挑战赛,该挑战赛于NeurIPS 2025的SpaVLE研讨会中举办。比赛聚焦于两个关键领域:规划与控制,参赛者探索使用视觉-语言模型(VLMs)进行多智能体具身规划以协调任务,并通过策略执行在动态环境中完成机器人操作。通过评估参赛者的解决方案,该挑战赛为具身多智能体系统的设计与协调提供了有价值的见解,有助于未来先进协作人工智能系统的发展。

AI 推荐理由

论文涉及多智能体协作与视觉语言模型,间接关联记忆机制,但非核心主题。

论文信息
作者 Li Kang, Heng Zhou, Xiufeng Song, Rui Li, Bruno N. Y. Chen et al.
发布日期 2026-01-26
arXiv ID 2601.18733
相关性评分 6/10 (相关)