摘要
本文系统研究了通过强化学习微调大语言模型时的奖励函数设计问题。针对传统二元奖励依赖特定验证器且稀疏的局限,文章探讨了基于参考答案概率或对数概率的似然奖励变体。实验表明,在数学推理基准及无外部验证器的长文本场景中,使用参考答案的对数概率作为思维链学习的奖励是唯一在所有设置下均表现优异的方法。该方法在可验证场景下成功率媲美或优于二元奖励,且在不可验证场景下表现与监督微调相当,有效 bridging 了不同答案长度与验证条件的鸿沟。
AI 推荐理由
论文核心研究基于似然的奖励设计以优化 LLM 的数学及长文本推理能力,直接提升思维链表现。
研究机构
Meta FAIR, 阿姆斯特丹大学
纽约大学
论文信息