RAG Reinforcement Learning Faithfulness Contrastive Learning
摘要

随着检索增强生成(RAG)的广泛应用,训练大语言模型以实现上下文敏感推理和事实忠实性愈发重要。现有 RAG 导向的强化学习方法依赖外部奖励,往往难以评估文档忠实性,且在开放域设置中可能误判相似答案。此外,目前缺乏基于 RAG 的自奖励机制,而缺乏客观反馈的自判断可能导致幻觉累积甚至模型崩溃。为此,本文提出一种以对比似然奖励(CLR)为核心的“内 - 外”混合奖励框架。CLR 直接优化有/无支持证据条件下响应的对数似然差距,鼓励模型提取相关证据并增强其在特定上下文中的置信度。实验表明,该方法在单跳、多跳、垂直领域及忠实性基准测试中均表现优异。

AI 推荐理由

论文核心在于通过强化学习提升 RAG 模型的上下文敏感推理能力和事实一致性。

研究机构
ANT GROUP
论文信息
作者 Zhehao Tan, Yihan Jiao, Dan Yang, Junjie Wang, Duolin Sun et al.
发布日期 2026-02-02
arXiv ID 2603.04406
相关性评分 9/10 (高度相关)