摘要
自我奖励语言模型(SRLMs)在无外部反馈的迭代对齐中表现卓越,但其核心机制尚缺乏理论阐释。本文首次为 SRLMs 提供了严格的理论保证。我们确立了单步更新的下界,揭示其对初始模型质量的依赖;进而推导了全迭代范式的有限样本误差界,证明性能随样本量以特定速率提升。关键发现是,对初始模型的依赖随迭代次数呈指数级衰减。这从形式上解释了自我奖励的成功原因:它能通过引导动态趋向内部稳定与一致性,稳健地克服糟糕的初始化。最后,我们将框架实例化为线性 Softmax 模型类,建立了连接高层洞察与实际架构的保证。
AI 推荐理由
论文核心研究自我奖励机制驱动的迭代对齐与自我改进,提供理论保证,属自我进化范畴。
研究机构
中国科学院
清华大学
北京大学
浙江大学
上海交通大学
论文信息