MedMCP-Calc：通过 MCP 集成评估 LLM 在真实医疗计算器场景中的表现

Tool Use Medical AI Benchmark MCP

摘要

医疗计算器是循证临床实践的基础，但其实际应用涉及自适应的多阶段过程，包括主动获取电子健康记录数据、依场景选择计算器及多步计算。针对现有基准仅关注静态单步计算的局限，本文提出 MedMCP-Calc，首个通过模型上下文协议（MCP）集成评估 LLM 在真实医疗计算器场景中表现的基准。该基准涵盖 4 个临床领域的 118 项任务，模拟模糊查询、结构化数据库交互及外部参考检索。评估显示，即便顶尖模型在端到端工作流中也存在显著缺陷。基于此，作者开发了融合场景规划与工具增强的微调模型 CalcMate，在开源模型中达到最先进水平。

AI 推荐理由

论文核心研究 LLM 在医疗场景中调用计算器工具、选择工具及执行多步计算的技能。

研究机构

上海交通大学上海创新研究院

论文信息

作者 Yakun Zhu, Yutong Huang, Shengqian Qin, Zhongzhen Huang, Shaoting Zhang et al.

发布日期 2026-01-30

arXiv ID 2601.23049