摘要
大型语言模型的进展多集中于深度扩展,即单智能体解决长程问题。然而,面对更广泛的任务,瓶颈已从个体能力转向组织能力。本文提出 WideSeek-R1,一种基于多智能体强化学习(MARL)训练的主从智能体框架,旨在通过广度扩展解决广泛信息检索问题。该系统利用共享大模型与隔离上下文及专用工具,联合优化主智能体与并行子智能体。实验表明,WideSeek-R1-4B 在 WideSearch 基准上表现优异,且性能随并行子智能体数量增加而提升,验证了广度扩展的有效性。
AI 推荐理由
论文核心研究多智能体协同下的任务编排与并行执行策略,属于高级规划范畴。
研究机构
清华大学
论文信息