后训练优化 模型饱和 弱代理学习 补偿学习
摘要

随着后训练优化成为提升大语言模型的关键手段,我们观察到一个持续存在的饱和瓶颈:一旦模型变得高度自信,进一步训练的收益逐渐减少。尽管现有方法继续强化目标预测,但我们发现模型自身的历史弱状态中仍包含有信息量的监督信号。受此启发,我们提出WMSS(弱代理可以使强代理更强),一种利用弱检查点引导持续优化的后训练范式。通过熵动力学识别可恢复的学习差距,并通过补偿学习加以强化,WMSS使强代理能够超越传统后训练饱和度。在数学推理和代码生成数据集上的实验表明,采用该方法训练的代理实现了有效的性能提升,同时不增加额外的推理成本。

AI 推荐理由

论文提及模型历史弱状态作为监督信号,与Agent Memory相关但非核心主题。

论文信息
作者 Zehao Chen, Gongxun Li, Tianxiang Ai, Yifei Li, Zixuan Huang et al.
发布日期 2026-02-09
arXiv ID 2602.08222
相关性评分 5/10 (一般相关)