检索注入推理沙盒：一个用于解耦检索与推理能力的基准

RAG Benchmark Reasoning Evaluation Document-grounded

摘要

针对现有评估难以区分大模型在真正新颖科学信息上的推理能力问题，本文提出 DeR2 基准。该沙盒通过四种机制隔离文档依据推理，有效解耦证据获取与推理过程，从而量化检索损失与推理损失。实验揭示了许多模型在多步合成与去噪任务中存在模式切换脆弱性及概念误用等结构性缺陷，为细粒度错误归因提供了可解释框架。

AI 推荐理由

论文核心在于解耦检索与推理，构建基准以评估纯文档 grounding 下的推理能力。

研究机构

字节跳动种子实验室

论文信息

作者 Shuangshuang Ying, Zheyu Wang, Yunjian Peng, Jin Chen, Yuhao Wu et al.

发布日期 2026-01-29

arXiv ID 2601.21937