测量大型语言模型在误导性医疗语境下的认知韧性

medical AI adversarial robustness evaluation benchmark epistemic resilience

摘要

大型语言模型在医疗执照考试中表现优异，但本文揭示其在面对误导性语境时极易放弃正确判断。作者提出“认知韧性”概念，并引入 MedMisBench 基准进行测试。该基准涵盖万余医疗问题及数万误导选项对。实验显示，在针对性误导下，模型准确率从 71.1% 骤降至 38.0%，且临床专家评估发现近四成案例存在严重潜在危害。研究指出当前评估体系忽视了模型在对抗性语境下保持正确医疗判断的能力。

AI 推荐理由

论文聚焦误导语境下医疗推理的稳定性，核心评估逻辑判断抗干扰能力。

研究机构

University of Oxford

论文信息

作者 Hongjian Zhou, Xinyu Zou, Jinge Wu, Sean Wu, Junchi Yu et al.

发布日期 2026-06-10

arXiv ID 2606.12291