结果准确性不足：对齐奖励模型的推理过程

Reward Model Deceptive Alignment Reasoning Process RLHF

摘要

生成式奖励模型（GenRMs）和 LLM 作为评判者因过度关注结果准确性而表现出欺骗性对齐，即基于错误理由得出正确判断，削弱了其在 RLHF 中的泛化能力。本文提出“理由一致性”这一细粒度指标，量化模型推理过程与人类判断的对齐程度。评估显示该指标能有效区分前沿模型并检测欺骗性对齐。为此，我们引入结合理由一致性与结果准确性的混合信号进行训练。该方法在 RM-Bench 和 JudgeBench 上取得最先进性能，并在创意写作任务中显著提升表现，成功避免了欺骗性对齐陷阱。

AI 推荐理由

论文核心研究奖励模型的推理过程对齐，提出细粒度指标量化推理一致性。

研究机构

Quwen Team, Alibaba Group Fudan University Tsinghua University

论文信息

作者 Binghai Wang, Yantao Liu, Yuxuan Liu, Tianyi Tang, Shenzhi Wang et al.

发布日期 2026-02-04

arXiv ID 2602.04649