MentalSeek-Dx：迈向真实世界精神科诊断的渐进式假设演绎推理

医疗诊断假设演绎推理强化学习基准测试

摘要

针对大语言模型在精神科评估中缺乏生态效度与细粒度监督的问题，本文提出首个真实临床场景下的疾病级诊断基准 MentalDx Bench。该基准包含 712 份经专家标注的电子病历，涵盖 76 种障碍。评估发现现有模型在粗粒度分类表现良好，但在疾病级诊断上存在系统性失败，反映出模式匹配与临床假设演绎推理之间的错位。为此，作者提出 MentalSeek-Dx，通过监督轨迹构建和课程强化学习训练模型内化临床推理过程，实现了仅 14B 参数下的最先进性能。

AI 推荐理由

论文核心聚焦于假设演绎推理，旨在解决 LLM 在精神科诊断中的推理范式错位问题。

研究机构

重庆大学计算机学院中国科学院自动化研究所

论文信息

作者 Xiao Sun, Yuming Yang, Junnan Zhu, Jiang Zhong, Xinyu Zhou et al.

发布日期 2026-02-03

arXiv ID 2602.03340