摘要
医学图像分割正从特定任务模型向通用框架演进。现有研究虽利用多模态大语言模型作为自主代理协调专用工具,但常依赖单轮刚性交互策略且缺乏过程级监督,导致冗余操作。为此,本文提出 MedSAM-Agent,将交互式分割重构为多步自主决策过程。该方法引入混合提示策略以生成专家轨迹,使模型内化类人决策启发式;并开发两阶段训练流程,结合多轮端到端结果验证与临床保真过程奖励设计,显著提升交互简洁性与决策效率。实验表明其在多个数据集上达到最先进水平。
AI 推荐理由
论文核心是将分割重构为多步自主决策过程,强调任务规划与多轮交互优化。
研究机构
中国科学院自动化研究所
清华大学
论文信息