Benchmark Scientific Reasoning Meta-Analysis RAG Agent Evaluation
摘要

荟萃分析是一种高难度的证据综合形式,涉及文献检索、基于 PI/ECO 标准的研究筛选及统计聚合。其结构化且可验证的工作流是评估系统性科学推理的理想场景,但现有基准缺乏全流程的真实标签。本文推出 MetaSyn 数据集,包含 442 篇专家策划的荟萃分析,配对研究问题、检索语料库及验证后的正负样本。对十二种管道配置的基准测试揭示了一个关键的筛选瓶颈:尽管检索召回率上限达 90.9%,但无系统能恢复超过 52.7% 的真实纳入文献。当前大模型难以在主题相似的干扰项中可靠区分符合标准的研究。

AI 推荐理由

论文评估 Agent 在复杂科学综述中的系统推理能力,重点在于筛选与逻辑判断。

研究机构
清华大学
论文信息
作者 Anzhe Xie, Weihang Su, Yujia Zhou, Yiqun Liu, Qingyao Ai
发布日期 2026-06-15
arXiv ID 2606.17041
相关性评分 8/10 (高度相关)