Scientific Reasoning Benchmark Evaluation AI Agents
摘要

本文针对科学 AI 智能体在高风险领域(如健康)合成结论的能力不明现状,提出 SciConBench 大规模基准测试。该基准包含 9110 个问题及专家撰写的系统综述结论,通过原子事实分解评估准确性与全面性。为防数据泄露,另建 SciConHarness 洁净室评估环境。实验显示,即便最先进模型在洁净室设置下事实 F1 值仅 0.337,且消费级智能体常生成不完整或矛盾结论。研究表明,可靠的科学结论合成仍是挑战,洁净室评估至关重要。

AI 推荐理由

论文核心评估 Agent 跨源推理与结论合成能力,属推理范畴。

研究机构
Princeton University Universidade Federal de Minas Gerais Stony Brook University Hucke nsack Meridian School of Medicine
论文信息
作者 Hayoung Jung, Pedro Viana Diniz, José Reinaldo Corrêa Roveda, Abner Fernandes da Silva, Haeun Jung et al.
发布日期 2026-06-09
arXiv ID 2606.11337
相关性评分 8/10 (高度相关)