信息检索 多代理系统 相关性评估 LLM协作
摘要

由于信息检索(IR)基准数据集中存在未标记的相关片段,信息检索评估仍然具有挑战性。尽管大型语言模型(LLMs)和LLM-人类混合策略减少了昂贵的人工努力,但它们仍容易出现LLM过度自信和无效的AI到人类升级问题。为了解决这一问题,我们提出了DREAM,一个基于多轮辩论的相关性评估框架,该框架利用LLM代理、对立的初始立场和迭代相互批评。通过我们的基于共识的辩论,它在某些情况下产生更精确的标签,并在不确定的情况下提供更可靠的AI到人类升级,仅需3.5%的人工参与即可达到95.2%的标签准确性。使用DREAM,我们构建了BRIDGE,一个改进的基准,通过揭示29,824个缺失的相关片段来减轻评估偏差并实现更公平的检索器比较。然后我们重新对IR系统进行基准测试,并将评估扩展到RAG,表明未解决的漏洞不仅扭曲了检索器排名,还导致检索生成不一致。

AI 推荐理由

论文涉及LLM代理在信息检索中的协作与标注,间接关联到记忆机制。

论文信息
作者 Minjeong Ban, Jeonghwan Choi, Hyangsuk Min, Nicole Hee-Yeon Kim, Minseok Kim et al.
发布日期 2026-02-06
arXiv ID 2602.06526
相关性评分 6/10 (相关)