摘要
本文针对科学 AI 智能体在高风险领域(如健康)合成结论的能力不明现状,提出 SciConBench 大规模基准测试。该基准包含 9110 个问题及专家撰写的系统综述结论,通过原子事实分解评估准确性与全面性。为防数据泄露,另建 SciConHarness 洁净室评估环境。实验显示,即便最先进模型在洁净室设置下事实 F1 值仅 0.337,且消费级智能体常生成不完整或矛盾结论。研究表明,可靠的科学结论合成仍是挑战,洁净室评估至关重要。
AI 推荐理由
论文核心评估 Agent 跨源推理与结论合成能力,属推理范畴。
研究机构
Princeton University
Universidade Federal de Minas Gerais
Stony Brook University
Hucke nsack Meridian School of Medicine
论文信息