CTRL-RAG：基于对比似然奖励的强化学习用于上下文忠实 RAG 模型

RAG Reinforcement Learning Faithfulness Contrastive Learning

摘要

随着检索增强生成（RAG）的广泛应用，训练大语言模型以实现上下文敏感推理和事实忠实性愈发重要。现有 RAG 导向的强化学习方法依赖外部奖励，往往难以评估文档忠实性，且在开放域设置中可能误判相似答案。此外，目前缺乏基于 RAG 的自奖励机制，而缺乏客观反馈的自判断可能导致幻觉累积甚至模型崩溃。为此，本文提出一种以对比似然奖励（CLR）为核心的“内 - 外”混合奖励框架。CLR 直接优化有/无支持证据条件下响应的对数似然差距，鼓励模型提取相关证据并增强其在特定上下文中的置信度。实验表明，该方法在单跳、多跳、垂直领域及忠实性基准测试中均表现优异。

AI 推荐理由

论文核心在于通过强化学习提升 RAG 模型的上下文敏感推理能力和事实一致性。

研究机构

ANT GROUP

论文信息

作者 Zhehao Tan, Yihan Jiao, Dan Yang, Junjie Wang, Duolin Sun et al.

发布日期 2026-02-02

arXiv ID 2603.04406