Reward Model Deceptive Alignment Reasoning Process RLHF
摘要

生成式奖励模型(GenRMs)和 LLM 作为评判者因过度关注结果准确性而表现出欺骗性对齐,即基于错误理由得出正确判断,削弱了其在 RLHF 中的泛化能力。本文提出“理由一致性”这一细粒度指标,量化模型推理过程与人类判断的对齐程度。评估显示该指标能有效区分前沿模型并检测欺骗性对齐。为此,我们引入结合理由一致性与结果准确性的混合信号进行训练。该方法在 RM-Bench 和 JudgeBench 上取得最先进性能,并在创意写作任务中显著提升表现,成功避免了欺骗性对齐陷阱。

AI 推荐理由

论文核心研究奖励模型的推理过程对齐,提出细粒度指标量化推理一致性。

研究机构
Quwen Team, Alibaba Group Fudan University Tsinghua University
论文信息
作者 Binghai Wang, Yantao Liu, Yuxuan Liu, Tianyi Tang, Shenzhi Wang et al.
发布日期 2026-02-04
arXiv ID 2602.04649
相关性评分 9/10 (高度相关)