超越标量奖励：将推理内化为评分分布

Reward Modeling Reasoning Distillation Text-to-Image Score Distribution

摘要

针对文本到图像后训练中视觉偏好主观性及标量奖励压缩不确定性的问题，本文提出 Z-Reward 框架。该框架采用师生模式解耦重型推理判断与高效部署：教师模型利用推理推断符合规则的评分分布，并通过群组直接评分优化（GDSO）训练；学生模型则通过推理内化评分蒸馏（RISD），在不需显式推理链的情况下继承教师能力。实验表明，该方法在人类偏好准确率上显著优于现有基线，并可作为可微信号提升图像生成质量。

AI 推荐理由

论文核心利用推理生成评分分布，并将推理能力内化至奖励模型，关键依赖推理机制。

研究机构

Z-Image Team, Alibaba Group VCIP, CS, Nankai University

论文信息

作者 Xin Jin, Huanqia Cai, Zhen Li, Zechao Zhan, Dengyang Jiang et al.

发布日期 2026-06-08

arXiv ID 2606.09076