BABE：生物学竞技场基准

Benchmark Scientific Reasoning Biology LLM Evaluation

摘要

大型语言模型的快速发展使其能力从基础对话扩展至高级科学推理。然而，现有生物学基准往往未能评估研究人员的一项关键技能：即整合实验结果与背景知识以得出有意义结论的能力。为此，我们推出了 BABE（生物学竞技场基准），这是一个旨在评估生物 AI 系统实验推理能力的综合基准。BABE 独特地构建于同行评审的研究论文和真实世界生物研究之上，确保任务反映实际科学探究的复杂性与跨学科性质。该基准挑战模型执行因果推理和跨尺度推断，为评估 AI 系统能否像实践科学家一样推理提供了稳健框架。

AI 推荐理由

论文核心在于评估生物领域的因果推理与跨尺度推断能力，直接针对推理机制。

研究机构

ByteDance Seed 北京大学

论文信息

作者 Junting Zhou, Jin Chen, Linfeng Hao, Denghui Cao, Zheyu Wang et al.

发布日期 2026-02-05

arXiv ID 2602.05857