摘要
针对现有评估难以区分大模型在真正新颖科学信息上的推理能力问题,本文提出 DeR2 基准。该沙盒通过四种机制隔离文档依据推理,有效解耦证据获取与推理过程,从而量化检索损失与推理损失。实验揭示了许多模型在多步合成与去噪任务中存在模式切换脆弱性及概念误用等结构性缺陷,为细粒度错误归因提供了可解释框架。
AI 推荐理由
论文核心在于解耦检索与推理,构建基准以评估纯文档 grounding 下的推理能力。
研究机构
字节跳动种子实验室
论文信息