WideSeek-R1: 通过多智能体强化学习探索宽度扩展以实现广泛的信息检索

多智能体系统强化学习信息检索宽度扩展

摘要

近年来，大型语言模型（LLMs）的发展主要集中在深度扩展上，即单个代理通过多轮推理和工具使用解决长期任务。然而，随着任务范围的扩大，关键瓶颈从个体能力转移到组织能力。本文探讨了通过多智能体系统进行宽度扩展以应对广泛信息检索的问题。现有系统通常依赖手工设计的工作流程和轮流交互，难以有效并行化工作。为此，我们提出了WideSeek-R1，一种通过多智能体强化学习（MARL）训练的主代理-子代理框架，以协同实现可扩展的调度和并行执行。利用共享的LLM和隔离上下文及专用工具，WideSeek-R1在20k个广泛信息检索任务的数据集上联合优化主代理和并行子代理。实验表明，WideSeek-R1-4B在WideSearch基准测试中实现了40.0%的物品F1分数，与单代理DeepSeek-R1-671B的性能相当。此外，随着并行子代理数量的增加，WideSeek-R1-4B表现出持续的性能提升，突显了宽度扩展的有效性。

AI 推荐理由

论文涉及多智能体系统中的信息寻求，与Agent Memory相关但非核心主题。

论文信息

作者 Zelai Xu, Zhexuan Xu, Ruize Zhang, Chunyang Zhu, Shi Yu et al.

发布日期 2026-02-04

arXiv ID 2602.04634