ScholarGym：基准测试大语言模型在深度研究信息收集阶段的能力

Benchmark Query Planning Deep Research Information Retrieval

摘要

大语言模型已从单轮问答演进为能迭代分解问题、调用检索工具并综合信息的深度研究系统。现有评估多关注最终报告，难以解耦分析各组件。本文提出 ScholarGym，一个隔离学术文献信息收集阶段的评估环境。它将研究过程分解为查询规划、工具调用和相关性评估三个阶段，并在包含 57 万篇论文的静态语料库上进行评估。实验表明，迭代查询分解显著优于单次检索，且查询规划与相关性评估是区分模型性能的关键瓶颈。

AI 推荐理由

论文核心聚焦于深度研究中的查询规划阶段，将其分解并评估，是主要贡献。

研究机构

中国机构

论文信息

作者 Hao Shen, Hang Yang, Zhouhong Gu, Weili Han

发布日期 2026-01-29

arXiv ID 2601.21654