摘要
针对文本到图像后训练中视觉偏好主观性及标量奖励压缩不确定性的问题,本文提出 Z-Reward 框架。该框架采用师生模式解耦重型推理判断与高效部署:教师模型利用推理推断符合规则的评分分布,并通过群组直接评分优化(GDSO)训练;学生模型则通过推理内化评分蒸馏(RISD),在不需显式推理链的情况下继承教师能力。实验表明,该方法在人类偏好准确率上显著优于现有基线,并可作为可微信号提升图像生成质量。
AI 推荐理由
论文核心利用推理生成评分分布,并将推理能力内化至奖励模型,关键依赖推理机制。
研究机构
Z-Image Team, Alibaba Group
VCIP, CS, Nankai University
论文信息