推断性问答 - Memory Bank

Inferential QA Reasoning Dataset LLM Evaluation

摘要

尽管问答系统研究广泛，但现有工作多关注答案的直接提取或生成。然而，部分问题需通过推理从隐含线索中导出答案。本文提出“推断性问答”新任务，挑战模型从仅提供线索的支撑段落中推断答案。为此构建了 QUIT 数据集，包含 7401 个问题及 240 万篇段落，基于人机协作提示并经 LLM 与人工验证标注。评估显示，传统检索器、重排序器及微调方法在该任务上表现不佳，甚至推理型大模型也未优于通用小模型，表明当前流程尚未准备好应对基于推理的问答挑战。

AI 推荐理由

论文核心聚焦于从间接证据中进行推断性推理，评估并揭示了当前模型在推理任务上的不足。

研究机构

因斯布鲁克大学马萨诸塞州阿默斯特大学昆士兰大学

论文信息

作者 Jamshid Mozafari, Hamed Zamani, Guido Zuccon, Adam Jatowt

发布日期 2026-02-01

arXiv ID 2602.01239