PerspectiveGap：多智能体编排提示的基准测试

multi-agent systems prompt engineering benchmark orchestration

摘要

现实世界的 LLM 应用正从单智能体工作流向编排式多智能体系统演进，但模型仍难确定各子智能体的信息需求。为此，本文提出 PerspectiveGap 基准，评估 LLM 为多智能体系统构建编排提示的能力。该基准包含 110 个场景，涵盖角色片段分配与自由形式提示两种任务格式，并基于“提示经济”原则构建了 10 种拓扑结构。实验显示，尽管 GPT-5.5 表现优异，但整体通过率仅 14.9%，表明多智能体编排提示是一项独特且未被充分评估的关键能力。

AI 推荐理由

论文聚焦多智能体编排中的任务分配与信息规划，属于规划能力核心研究。

研究机构

University of Maryland, Stanford University University of Maryland

论文信息

作者 Youran Sun, Xingyu Ren, Kejia Zhang, Xinpeng Liu, Jiaxuan Guo

发布日期 2026-06-07

arXiv ID 2606.08878