Medical AI Agent Benchmark Tool Use Human-Agent Interaction
摘要

医疗大语言模型的近期角色是辅助而非替代医生,但现有评估往往孤立测试临床知识、电子病历(EHR)交互或患者沟通能力。真正的医师辅助需要在同一交互中协调这些能力。本文提出 PhysAssistBench,一个用于交互式医患-EHR 辅助的基准。该基准基于真实 MIMIC-IV 病例,通过可扩展流程构建代理患者,将静态 EHR 记录转化为多轮临床场景并保持临床事实性。实验表明,当前模型在此设定下仍不可靠,揭示了关键瓶颈:可靠辅助需要跨知识、沟通和系统的协同,而非单一能力的提升。

AI 推荐理由

论文核心评估 LLM 在医疗场景中协调知识、沟通及精确工具使用(EHR 交互)的综合技能。

研究机构
ELIS Institute Finland Aalto University Tsinghua University Hong Kong Polytechnic University University of Oulu Polytechnic University of Milan Technical University of Munich Aarhus University
论文信息
作者 Tianming Du, Peijie Yu, Sihan Shang, Danli Shi, My Linh Nguyen et al.
发布日期 2026-06-17
arXiv ID 2606.18613
相关性评分 8/10 (高度相关)