Benchmark Scientific Reasoning Biology LLM Evaluation
摘要

大型语言模型的快速发展使其能力从基础对话扩展至高级科学推理。然而,现有生物学基准往往未能评估研究人员的一项关键技能:即整合实验结果与背景知识以得出有意义结论的能力。为此,我们推出了 BABE(生物学竞技场基准),这是一个旨在评估生物 AI 系统实验推理能力的综合基准。BABE 独特地构建于同行评审的研究论文和真实世界生物研究之上,确保任务反映实际科学探究的复杂性与跨学科性质。该基准挑战模型执行因果推理和跨尺度推断,为评估 AI 系统能否像实践科学家一样推理提供了稳健框架。

AI 推荐理由

论文核心在于评估生物领域的因果推理与跨尺度推断能力,直接针对推理机制。

研究机构
ByteDance Seed 北京大学
论文信息
作者 Junting Zhou, Jin Chen, Linfeng Hao, Denghui Cao, Zheyu Wang et al.
发布日期 2026-02-05
arXiv ID 2602.05857
相关性评分 9/10 (高度相关)