摘要
荟萃分析是一种高难度的证据综合形式,涉及文献检索、基于 PI/ECO 标准的研究筛选及统计聚合。其结构化且可验证的工作流是评估系统性科学推理的理想场景,但现有基准缺乏全流程的真实标签。本文推出 MetaSyn 数据集,包含 442 篇专家策划的荟萃分析,配对研究问题、检索语料库及验证后的正负样本。对十二种管道配置的基准测试揭示了一个关键的筛选瓶颈:尽管检索召回率上限达 90.9%,但无系统能恢复超过 52.7% 的真实纳入文献。当前大模型难以在主题相似的干扰项中可靠区分符合标准的研究。
AI 推荐理由
论文评估 Agent 在复杂科学综述中的系统推理能力,重点在于筛选与逻辑判断。
研究机构
清华大学
论文信息