Benchmark Surgical AI Reasoning Evaluation LLM Assessment
摘要

针对大语言模型在外科领域评估不足的问题,本文提出 SurgiQ 基准。该基准包含 13,055 道基于文本的多选题,涵盖六个外科领域及四种题型,重点考察程序性推理、管理权衡及否定处理等能力。数据源自教材与论文,经多阶段生成与专家审计。对 35 个开源模型的评估显示,通用模型表现优于生物医学专用模型,但整体仍有巨大提升空间,且强模型常在临床似是而非的干扰项上犯下自信错误,亟需更可靠的外科评估体系。

AI 推荐理由

论文聚焦手术领域的程序性推理与决策评估,虽为基准测试,但核心考察 LLM 推理能力。

研究机构
Zayed University of Artificial Intelligence, UAE
论文信息
作者 Ayah Al-Naji, Edoardo Fazzari, Saif Alkindi, Hamdan Alhadhrami, Preslav Nakov et al.
发布日期 2026-06-06
arXiv ID 2606.08071
相关性评分 8/10 (高度相关)