scientific reasoning benchmark expert-level evaluation
摘要

本文推出 FrontierScience 基准,旨在评估前沿语言模型的专家级科学推理能力。针对现有科学基准趋于饱和且多依赖选择题的局限,该基准包含“奥林匹克”与“研究”双赛道:前者涵盖物理、化学及生物的国际奥赛难题;后者由博士科研人员设计,模拟真实科研子任务。此外,研究引入了基于量表的细粒度评估框架,不仅关注最终答案,更全程评估模型解决复杂科研任务的推理过程。

AI 推荐理由

论文核心在于评估前沿模型在专家级科学任务中的推理能力,直接针对推理基准。

研究机构
OpenAI
论文信息
作者 Miles Wang, Robi Lin, Kat Hu, Joy Jiao, Neil Chowdhury et al.
发布日期 2026-01-29
arXiv ID 2601.21165
相关性评分 9/10 (高度相关)