金鹅：一种从不可验证互联网文本中合成无限 RLVR 任务的简单技巧

RLVR 数据合成推理增强大语言模型

摘要

针对可验证奖励强化学习（RLVR）受限于数据稀缺导致模型性能饱和的问题，本文提出“金鹅”方法。该方法通过将“中间填充”任务转化为多项选择题，利用不可验证的互联网文本（如科学教材）合成海量推理任务。基于此构建的 GooseReason-0.7M 数据集涵盖数学、编程及科学领域，成功重启了饱和模型的训练，在多个基准测试中刷新最先进结果。此外，该方法在网络安全领域的应用也证明了其利用丰富网络文本自动扩展推理数据的巨大潜力。

AI 推荐理由

论文核心旨在通过合成数据解锁和增强 LLM 的复杂推理能力，直接解决推理任务数据瓶颈。

研究机构

清华大学微软亚洲研究院华盛顿大学

论文信息

作者 Ximing Lu, David Acuna, Jaehun Jung, Jian Hu, Di Zhang et al.

发布日期 2026-01-30

arXiv ID 2601.22975