DETOUR：用于双代理搜索与推理的交互式基准

benchmark multi-turn dialogue information retrieval dual-agent

摘要

人们在对话中回忆信息时，往往需经多轮交互才能达成。然而，现有评估代理在此类“话到嘴边”搜索过程的基准仅限于单轮设置。为更真实地模拟该过程，本文提出 DETOUR，一个包含 1011 个提示的双代理评估基准。该设计涉及一个待评估的主代理，其任务是通过查询一个在各次评估中保持一致的记忆代理来识别目标实体。结果显示，当前最先进模型在该基准上表现欠佳，全模态准确率仅 36%，凸显了增强模糊场景下能力的重要性。

AI 推荐理由

论文核心评估代理在模糊提示下通过多轮对话检索记忆的能力，聚焦记忆机制。

研究机构

Patronus AI DAP Lab, Columbia University

论文信息

作者 Li Siyan, Darshan Deshpande, Anand Kannappan, Rebecca Qian

发布日期 2026-01-30

arXiv ID 2602.00352