为何自我奖励有效：语言模型迭代对齐的理论保证

Self-Rewarding Iterative Alignment Theoretical Guarantees LLM Evolution

摘要

自我奖励语言模型（SRLMs）在无外部反馈的迭代对齐中表现卓越，但其核心机制尚缺乏理论阐释。本文首次为 SRLMs 提供了严格的理论保证。我们确立了单步更新的下界，揭示其对初始模型质量的依赖；进而推导了全迭代范式的有限样本误差界，证明性能随样本量以特定速率提升。关键发现是，对初始模型的依赖随迭代次数呈指数级衰减。这从形式上解释了自我奖励的成功原因：它能通过引导动态趋向内部稳定与一致性，稳健地克服糟糕的初始化。最后，我们将框架实例化为线性 Softmax 模型类，建立了连接高层洞察与实际架构的保证。

AI 推荐理由

论文核心研究自我奖励机制驱动的迭代对齐与自我改进，提供理论保证，属自我进化范畴。

研究机构

中国科学院清华大学北京大学浙江大学上海交通大学

论文信息

作者 Shi Fu, Yingjie Wang, Shengchao Hu, Peng Wang, Dacheng Tao

发布日期 2026-01-30

arXiv ID 2601.22513