multi-agent systems prompt engineering benchmark orchestration
摘要

现实世界的 LLM 应用正从单智能体工作流向编排式多智能体系统演进,但模型仍难确定各子智能体的信息需求。为此,本文提出 PerspectiveGap 基准,评估 LLM 为多智能体系统构建编排提示的能力。该基准包含 110 个场景,涵盖角色片段分配与自由形式提示两种任务格式,并基于“提示经济”原则构建了 10 种拓扑结构。实验显示,尽管 GPT-5.5 表现优异,但整体通过率仅 14.9%,表明多智能体编排提示是一项独特且未被充分评估的关键能力。

AI 推荐理由

论文聚焦多智能体编排中的任务分配与信息规划,属于规划能力核心研究。

研究机构
University of Maryland, Stanford University University of Maryland
论文信息
作者 Youran Sun, Xingyu Ren, Kejia Zhang, Xinpeng Liu, Jiaxuan Guo
发布日期 2026-06-07
arXiv ID 2606.08878
相关性评分 8/10 (高度相关)