摘要
针对可验证奖励强化学习(RLVR)受限于数据稀缺导致模型性能饱和的问题,本文提出“金鹅”方法。该方法通过将“中间填充”任务转化为多项选择题,利用不可验证的互联网文本(如科学教材)合成海量推理任务。基于此构建的 GooseReason-0.7M 数据集涵盖数学、编程及科学领域,成功重启了饱和模型的训练,在多个基准测试中刷新最先进结果。此外,该方法在网络安全领域的应用也证明了其利用丰富网络文本自动扩展推理数据的巨大潜力。
AI 推荐理由
论文核心旨在通过合成数据解锁和增强 LLM 的复杂推理能力,直接解决推理任务数据瓶颈。
研究机构
清华大学
微软亚洲研究院
华盛顿大学
论文信息