SurgiQ：用于评估大语言模型手术理解能力的大规模多领域基准

Benchmark Surgical AI Reasoning Evaluation LLM Assessment

摘要

针对大语言模型在外科领域评估不足的问题，本文提出 SurgiQ 基准。该基准包含 13,055 道基于文本的多选题，涵盖六个外科领域及四种题型，重点考察程序性推理、管理权衡及否定处理等能力。数据源自教材与论文，经多阶段生成与专家审计。对 35 个开源模型的评估显示，通用模型表现优于生物医学专用模型，但整体仍有巨大提升空间，且强模型常在临床似是而非的干扰项上犯下自信错误，亟需更可靠的外科评估体系。

AI 推荐理由

论文聚焦手术领域的程序性推理与决策评估，虽为基准测试，但核心考察 LLM 推理能力。

研究机构

Zayed University of Artificial Intelligence, UAE

论文信息

作者 Ayah Al-Naji, Edoardo Fazzari, Saif Alkindi, Hamdan Alhadhrami, Preslav Nakov et al.

发布日期 2026-06-06

arXiv ID 2606.08071