摘要
模型能否突破自身的学习瓶颈?强化学习方法在微调大型推理模型时,在初始成功率低的数据集上容易停滞。本文研究了一个基本问题:预训练的大语言模型是否能利用潜在知识为无法解决的问题生成自动课程?为此,我们设计了SOAR框架,通过元强化学习揭示这些教学信号。教师模型为学生模型提出合成问题,并根据其在少量难题上的改进获得奖励。关键在于,SOAR基于学生的实际进步而非内在代理奖励来构建课程。我们在数学基准中最难的子集(0/128成功)上进行了研究,发现三个核心结论:首先,通过增强预训练模型生成有用中间步骤的潜在能力,可以实现双层元强化学习;其次,基于实际进步的奖励优于以往LLM自博弈中使用的内在奖励方案;第三,分析生成的问题表明,结构质量和命题合理性比解题正确性对学习进展更为关键。结果表明,生成有用的中间步骤并不需要预先具备解决难题的能力,为摆脱推理瓶颈提供了一条无需额外人工数据的原则路径。
AI 推荐理由
论文探讨了模型自我学习与生成教学内容的能力,涉及记忆机制的隐含知识利用。
论文信息