摘要
医疗计算器是循证临床实践的基础,但其实际应用涉及自适应的多阶段过程,包括主动获取电子健康记录数据、依场景选择计算器及多步计算。针对现有基准仅关注静态单步计算的局限,本文提出 MedMCP-Calc,首个通过模型上下文协议(MCP)集成评估 LLM 在真实医疗计算器场景中表现的基准。该基准涵盖 4 个临床领域的 118 项任务,模拟模糊查询、结构化数据库交互及外部参考检索。评估显示,即便顶尖模型在端到端工作流中也存在显著缺陷。基于此,作者开发了融合场景规划与工具增强的微调模型 CalcMate,在开源模型中达到最先进水平。
AI 推荐理由
论文核心研究 LLM 在医疗场景中调用计算器工具、选择工具及执行多步计算的技能。
研究机构
上海交通大学
上海创新研究院
论文信息