摘要
尽管问答系统研究广泛,但现有工作多关注答案的直接提取或生成。然而,部分问题需通过推理从隐含线索中导出答案。本文提出“推断性问答”新任务,挑战模型从仅提供线索的支撑段落中推断答案。为此构建了 QUIT 数据集,包含 7401 个问题及 240 万篇段落,基于人机协作提示并经 LLM 与人工验证标注。评估显示,传统检索器、重排序器及微调方法在该任务上表现不佳,甚至推理型大模型也未优于通用小模型,表明当前流程尚未准备好应对基于推理的问答挑战。
AI 推荐理由
论文核心聚焦于从间接证据中进行推断性推理,评估并揭示了当前模型在推理任务上的不足。
研究机构
因斯布鲁克大学
马萨诸塞州阿默斯特大学
昆士兰大学
论文信息