Agent Memory 信息检索 LLM 基准测试 深度学习
摘要

深度研究代理已成为解决复杂查询的强大系统,而基于LLM的检索器在遵循指令或推理方面表现出色。本文提出SAGE基准测试,包含四个科学领域的1200个查询及20万篇论文的检索语料库。实验发现,所有系统在需要推理的检索任务中表现不佳。通过对比BM25与基于LLM的检索器(如ReasonIR和gte-Qwen2-7B-instruct),发现BM25性能显著优于后者约30%。为此,作者提出一种基于语料库级别的测试时扩展框架,利用LLM增强文档的元数据和关键词,从而提升现成检索器的性能,分别在简答和开放问题上取得8%和2%的提升。

AI 推荐理由

论文涉及LLM检索器在研究代理中的应用,与记忆机制相关但非核心主题。

论文信息
作者 Tiansheng Hu, Yilun Zhao, Canyu Zhang, Arman Cohan, Chen Zhao
发布日期 2026-02-05
arXiv ID 2602.05975
相关性评分 6/10 (相关)