MedSAM-Agent：通过多轮代理强化学习赋能交互式医学图像分割

Medical Image Segmentation Multi-turn Interaction Reinforcement Learning Autonomous Agent

摘要

医学图像分割正从特定任务模型向通用框架演进。现有研究虽利用多模态大语言模型作为自主代理协调专用工具，但常依赖单轮刚性交互策略且缺乏过程级监督，导致冗余操作。为此，本文提出 MedSAM-Agent，将交互式分割重构为多步自主决策过程。该方法引入混合提示策略以生成专家轨迹，使模型内化类人决策启发式；并开发两阶段训练流程，结合多轮端到端结果验证与临床保真过程奖励设计，显著提升交互简洁性与决策效率。实验表明其在多个数据集上达到最先进水平。

AI 推荐理由

论文核心是将分割重构为多步自主决策过程，强调任务规划与多轮交互优化。

研究机构

中国科学院自动化研究所清华大学

论文信息

作者 Shengyuan Liu, Liuxin Bao, Qi Yang, Wanting Geng, Boyun Zheng et al.

发布日期 2026-02-03

arXiv ID 2602.03320