Reinforcement Learning Multi-Hop QA Reasoning Faithfulness RAG
摘要

检索增强大语言模型在多跳问答中虽能取得高准确率,但在噪声检索下常出现“答案正确但推理错误”的现象,即利用虚假捷径或生成缺乏证据支持的推理轨迹。为此,本文提出 CRAFT 框架,在响应生成阶段利用强化学习训练模型生成结构化且可审计的推理轨迹。该方法结合确定性奖励(确保格式、答案及引用合规)与基于评判者的奖励(评估语义忠实度与证据 grounding)。实验表明,CRAFT 显著提升了各规模模型的答案准确率与推理忠实度,使 7B 模型性能媲美强力闭源模型。

AI 推荐理由

论文核心在于通过强化学习提升多跳问答中的推理忠实度与准确性,解决“答案对但推理错”的问题。

研究机构
中国科学院信息工程研究所, CAS 西澳大学
论文信息
作者 Yu Liu, Wenxiao Zhang, Diandian Guo, Cong Cao, Fangfang Yuan et al.
发布日期 2026-02-01
arXiv ID 2602.01348
相关性评分 9/10 (高度相关)