Benchmark Query Planning Deep Research Information Retrieval
摘要

大语言模型已从单轮问答演进为能迭代分解问题、调用检索工具并综合信息的深度研究系统。现有评估多关注最终报告,难以解耦分析各组件。本文提出 ScholarGym,一个隔离学术文献信息收集阶段的评估环境。它将研究过程分解为查询规划、工具调用和相关性评估三个阶段,并在包含 57 万篇论文的静态语料库上进行评估。实验表明,迭代查询分解显著优于单次检索,且查询规划与相关性评估是区分模型性能的关键瓶颈。

AI 推荐理由

论文核心聚焦于深度研究中的查询规划阶段,将其分解并评估,是主要贡献。

研究机构
中国机构
论文信息
作者 Hao Shen, Hang Yang, Zhouhong Gu, Weili Han
发布日期 2026-01-29
arXiv ID 2601.21654
相关性评分 9/10 (高度相关)