强化学习 离策略学习 记忆机制 策略优化
摘要

典型的强化学习(RL)方法在处理困难问题时会浪费大量计算资源,因为正确的策略轨迹稀少,策略梯度消失,学习停滞。为实现更高效的RL,本文提出通过重用旧的采样FLOPs(来自之前的推理或RL训练)以离策略轨迹的形式进行引导。标准的离策略方法在监督离策略数据时会导致优化过程中的不稳定性。为此,我们引入了PrefixRL方法,该方法基于成功的离策略轨迹的前缀进行条件化,并运行策略RL来完成这些轨迹,从而绕过离策略的不稳定性。PrefixRL通过调整离策略前缀长度来调节问题难度,从而增强困难问题的学习信号。我们证明PrefixRL的目标不仅与标准RL目标一致,而且样本效率更高。实验中,我们发现反向泛化现象:仅在带有前缀的问题上训练可以推广到分布外的无前缀任务,且学到的策略通常不同于前缀中的策略。在实验中,我们通过拒绝采样从基础模型生成离策略轨迹,形成自我改进循环。在困难推理任务中,PrefixRL比最强基线(在离策略数据上进行SFT后再进行RL)更快达到相同的训练奖励(2倍速度),即使考虑初始拒绝采样的计算成本,最终奖励也提高了3倍。这些提升可转移到保留的基准测试中,且当离策略轨迹来源于不同模型家族时,PrefixRL依然有效,验证了其在实际场景中的灵活性。

AI 推荐理由

论文涉及使用历史数据(off-policy traces)作为前缀引导RL训练,与Agent Memory相关但非核心主题。

论文信息
作者 Amrith Setlur, Zijian Wang, Andrew Cohen, Paria Rashidinejad, Sang Michael Xie
发布日期 2026-01-26
arXiv ID 2601.18795
相关性评分 6/10 (相关)