摘要
可验证奖励的强化学习(RLVR)已被证明是增强大型语言模型(LLMs)推理能力的有效方法。然而,RLVR面临元学习瓶颈:缺乏人类学习循环中除实践和验证之外的错误归因和经验内化机制,从而限制了细粒度信用分配和可重用知识的形成。我们将从过去错误中提取的可重用知识表示称为元经验。基于这一洞察,我们提出了元经验学习(MEL),一种新颖的框架,将自我蒸馏的元经验整合到模型的参数记忆中。在标准RLVR的基础上,我们引入了一种设计,利用LLM的自验证能力对正确与错误轨迹进行对比分析,识别推理错误产生的精确分叉点,并将其总结为可推广的元经验。通过最小化负对数似然,元经验进一步被内化到LLM的参数记忆中,从而产生一种连接正确与错误推理轨迹的语言建模奖励信号,促进有效的知识重用。实验结果表明,MEL在基准测试中实现了持续改进,在不同模型规模下Pass@1指标提升了3.92%至4.73%。
AI 推荐理由
论文核心围绕LLM的Memory机制,提出将元经验内化到模型参数记忆中,属于Agent Memory的核心研究。
论文信息