摘要
医疗大语言模型的近期角色是辅助而非替代医生,但现有评估往往孤立测试临床知识、电子病历(EHR)交互或患者沟通能力。真正的医师辅助需要在同一交互中协调这些能力。本文提出 PhysAssistBench,一个用于交互式医患-EHR 辅助的基准。该基准基于真实 MIMIC-IV 病例,通过可扩展流程构建代理患者,将静态 EHR 记录转化为多轮临床场景并保持临床事实性。实验表明,当前模型在此设定下仍不可靠,揭示了关键瓶颈:可靠辅助需要跨知识、沟通和系统的协同,而非单一能力的提升。
AI 推荐理由
论文核心评估 LLM 在医疗场景中协调知识、沟通及精确工具使用(EHR 交互)的综合技能。
研究机构
ELIS Institute Finland
Aalto University
Tsinghua University
Hong Kong Polytechnic University
University of Oulu
Polytechnic University of Milan
Technical University of Munich
Aarhus University
论文信息