FrontierScience：评估人工智能执行专家级科学任务的能力

scientific reasoning benchmark expert-level evaluation

摘要

本文推出 FrontierScience 基准，旨在评估前沿语言模型的专家级科学推理能力。针对现有科学基准趋于饱和且多依赖选择题的局限，该基准包含“奥林匹克”与“研究”双赛道：前者涵盖物理、化学及生物的国际奥赛难题；后者由博士科研人员设计，模拟真实科研子任务。此外，研究引入了基于量表的细粒度评估框架，不仅关注最终答案，更全程评估模型解决复杂科研任务的推理过程。

AI 推荐理由

论文核心在于评估前沿模型在专家级科学任务中的推理能力，直接针对推理基准。

研究机构

OpenAI

论文信息

作者 Miles Wang, Robi Lin, Kat Hu, Joy Jiao, Neil Chowdhury et al.

发布日期 2026-01-29

arXiv ID 2601.21165