医疗诊断 假设演绎推理 强化学习 基准测试
摘要

针对大语言模型在精神科评估中缺乏生态效度与细粒度监督的问题,本文提出首个真实临床场景下的疾病级诊断基准 MentalDx Bench。该基准包含 712 份经专家标注的电子病历,涵盖 76 种障碍。评估发现现有模型在粗粒度分类表现良好,但在疾病级诊断上存在系统性失败,反映出模式匹配与临床假设演绎推理之间的错位。为此,作者提出 MentalSeek-Dx,通过监督轨迹构建和课程强化学习训练模型内化临床推理过程,实现了仅 14B 参数下的最先进性能。

AI 推荐理由

论文核心聚焦于假设演绎推理,旨在解决 LLM 在精神科诊断中的推理范式错位问题。

研究机构
重庆大学计算机学院 中国科学院自动化研究所
论文信息
作者 Xiao Sun, Yuming Yang, Junnan Zhu, Jiang Zhong, Xinyu Zhou et al.
发布日期 2026-02-03
arXiv ID 2602.03340
相关性评分 9/10 (高度相关)