基于 Nature Portfolio 荟萃分析文章对 LLM 智能体进行基准测试

Benchmark Scientific Reasoning Meta-Analysis RAG Agent Evaluation

摘要

荟萃分析是一种高难度的证据综合形式，涉及文献检索、基于 PI/ECO 标准的研究筛选及统计聚合。其结构化且可验证的工作流是评估系统性科学推理的理想场景，但现有基准缺乏全流程的真实标签。本文推出 MetaSyn 数据集，包含 442 篇专家策划的荟萃分析，配对研究问题、检索语料库及验证后的正负样本。对十二种管道配置的基准测试揭示了一个关键的筛选瓶颈：尽管检索召回率上限达 90.9%，但无系统能恢复超过 52.7% 的真实纳入文献。当前大模型难以在主题相似的干扰项中可靠区分符合标准的研究。

AI 推荐理由

论文评估 Agent 在复杂科学综述中的系统推理能力，重点在于筛选与逻辑判断。

研究机构

清华大学

论文信息

作者 Anzhe Xie, Weihang Su, Yujia Zhou, Yiqun Liu, Qingyao Ai

发布日期 2026-06-15

arXiv ID 2606.17041