摘要
人们在对话中回忆信息时,往往需经多轮交互才能达成。然而,现有评估代理在此类“话到嘴边”搜索过程的基准仅限于单轮设置。为更真实地模拟该过程,本文提出 DETOUR,一个包含 1011 个提示的双代理评估基准。该设计涉及一个待评估的主代理,其任务是通过查询一个在各次评估中保持一致的记忆代理来识别目标实体。结果显示,当前最先进模型在该基准上表现欠佳,全模态准确率仅 36%,凸显了增强模糊场景下能力的重要性。
AI 推荐理由
论文核心评估代理在模糊提示下通过多轮对话检索记忆的能力,聚焦记忆机制。
研究机构
Patronus AI
DAP Lab, Columbia University
论文信息