摘要
人类学习中根据纠正性反馈调整思维过程是一项关键能力,尤其在协作环境中。相比之下,当前大语言模型的训练范式主要依赖于建模大量静态语料库,忽视了模型动态适应上下文所需的交互反馈循环。本文提出了一种框架,将这种交互式上下文学习能力视为一种可训练的技能而非涌现特性。我们引入了一种可扩展的方法,将单轮可验证任务转化为由信息不对称驱动的多轮教学互动。实验表明,当前主流模型在复杂推理任务上难以整合纠正性反馈,而采用本文方法训练的模型显著提升了从语言反馈中交互式学习的能力。更具体地,较小模型的多轮性能几乎达到一个数量级更大的模型水平。此外,我们在数学问题上的交互式训练能够泛化到编程、谜题和迷宫导航等不同领域。定性分析表明,这一改进源于上下文可塑性的增强。最后,我们展示了该范式为模型自我改进提供了一条统一路径:通过训练模型预测教师的批评,有效建模反馈环境,将外部信号转化为内部能力,使模型即使没有教师也能自我修正。
AI 推荐理由
论文探讨了模型通过交互式反馈进行动态学习,涉及记忆的可塑性和适应性,与Agent Memory相关但非核心主题。
论文信息