摘要
大语言模型已从单轮问答演进为能迭代分解问题、调用检索工具并综合信息的深度研究系统。现有评估多关注最终报告,难以解耦分析各组件。本文提出 ScholarGym,一个隔离学术文献信息收集阶段的评估环境。它将研究过程分解为查询规划、工具调用和相关性评估三个阶段,并在包含 57 万篇论文的静态语料库上进行评估。实验表明,迭代查询分解显著优于单次检索,且查询规划与相关性评估是区分模型性能的关键瓶颈。
AI 推荐理由
论文核心聚焦于深度研究中的查询规划阶段,将其分解并评估,是主要贡献。
研究机构
中国机构
论文信息