Multi-Agent Wide Research Reinforcement Learning Parallel Planning
摘要

搜索智能正从深度研究演变为广域研究,旨在并行检索和综合复杂约束下的全面信息。针对该领域缺乏专用基准和优化方法的问题,本文从数据管道和智能体优化两方面展开研究。首先,构建了涵盖信息量、逻辑约束及领域多样性的通用广域信息寻求基准 WideSeekBench。其次,提出了 WideSeek,一种能根据任务需求自主分叉并行子智能体的动态分层多智能体架构。此外,设计了统一训练框架,将多智能体轨迹线性化并利用端到端强化学习进行优化。实验证实了该方法的有效性,表明扩展智能体数量是推进广域研究范式的有力方向。

AI 推荐理由

提出动态分层多智能体架构,自主并行分叉子智能体以执行复杂搜索规划。

研究机构
清华大学 智谱AI
论文信息
作者 Ziyang Huang, Haolin Ren, Xiaowei Yuan, Jiawei Wang, Zhongtao Jiang et al.
发布日期 2026-02-02
arXiv ID 2602.02636
相关性评分 9/10 (高度相关)