摘要
本文推出 FrontierScience 基准,旨在评估前沿语言模型的专家级科学推理能力。针对现有科学基准趋于饱和且多依赖选择题的局限,该基准包含“奥林匹克”与“研究”双赛道:前者涵盖物理、化学及生物的国际奥赛难题;后者由博士科研人员设计,模拟真实科研子任务。此外,研究引入了基于量表的细粒度评估框架,不仅关注最终答案,更全程评估模型解决复杂科研任务的推理过程。
AI 推荐理由
论文核心在于评估前沿模型在专家级科学任务中的推理能力,直接针对推理基准。
研究机构
OpenAI
论文信息