医学推理 智能体训练 上下文管理 工具调用优化 DR模型
摘要

医学推理模型受限于参数化知识,容易出现遗忘和幻觉。DeepResearch(DR)模型基于可验证证据进行输出,在通用领域表现良好,但在医学领域的直接迁移效果有限。我们将其归因于任务特性和工具使用扩展两个方面的不足。医学问题需要在知识密集型临床背景下解释证据;而通用DR模型虽然能够检索信息,但往往缺乏临床背景推理能力,导致“找到但无法利用”信息,从而限制了性能。此外,在医学场景中盲目扩展工具调用可能引入噪声上下文,干扰敏感的医学推理,并促使沿着错误路径重复寻找证据。因此,我们提出了DeepMed。在数据方面,我们采用多跳医学搜索问答合成方法,使模型能够在医学背景下应用DR范式。在训练方面,我们引入难度感知的回合惩罚机制,以抑制过度的工具调用增长。在推理阶段,我们引入监控机制,帮助在受控步骤内验证假设并避免上下文退化。总体而言,在七个医学基准测试中,DeepMed平均比其基础模型提升了9.79%,并且优于更大的医学推理和DR模型。

AI 推荐理由

论文涉及Agent推理中的记忆相关问题,如防止遗忘和上下文污染,但核心是医疗领域推理模型的改进。

论文信息
作者 Zihan wang, Hao Wang, Shi Feng, Xiaocui Yang, Daling Wang et al.
发布日期 2026-01-26
arXiv ID 2601.18496
相关性评分 6/10 (相关)