摘要
大型语言模型在医疗领域展现出巨大潜力,但其在自主电子健康记录(EHR)导航中的应用仍受限于对精选输入和简化检索任务的依赖。为弥合理想化实验环境与真实临床环境之间的差距,本文提出了AgentEHR基准测试,挑战智能体执行复杂的决策任务,如诊断和治疗计划,这些任务需要在原始且高噪声的数据库中进行长距离交互推理。在解决这些任务时,我们发现现有摘要方法不可避免地导致关键信息丢失和推理连续性断裂。为此,我们提出RetroSum,一种新颖的框架,将回顾性摘要机制与演进的经验策略相结合。通过动态重新评估交互历史,回顾性机制防止了长上下文信息丢失并确保逻辑连贯性。此外,演进策略通过从记忆库中检索积累的经验来弥合领域差距。广泛的实证评估表明,RetroSum相比竞争基线实现了高达29.16%的性能提升,并显著减少了高达92.3%的总交互错误。
AI 推荐理由
论文核心提出RetroSum框架,结合回顾性摘要与经验演化策略,直接涉及Agent Memory机制。
论文信息