摘要
随着检索增强生成(RAG)的广泛应用,训练大语言模型以实现上下文敏感推理和事实忠实性愈发重要。现有 RAG 导向的强化学习方法依赖外部奖励,往往难以评估文档忠实性,且在开放域设置中可能误判相似答案。此外,目前缺乏基于 RAG 的自奖励机制,而缺乏客观反馈的自判断可能导致幻觉累积甚至模型崩溃。为此,本文提出一种以对比似然奖励(CLR)为核心的“内 - 外”混合奖励框架。CLR 直接优化有/无支持证据条件下响应的对数似然差距,鼓励模型提取相关证据并增强其在特定上下文中的置信度。实验表明,该方法在单跳、多跳、垂直领域及忠实性基准测试中均表现优异。
AI 推荐理由
论文核心在于通过强化学习提升 RAG 模型的上下文敏感推理能力和事实一致性。
研究机构
ANT GROUP
论文信息