强化学习 偏好学习 Transformer 上下文学习
摘要

上下文强化学习(ICRL)利用Transformer模型的上下文学习能力,在无需参数更新的情况下高效泛化到未见过的序列决策任务。然而现有方法依赖显式奖励信号,限制了其在奖励模糊或难以获取时的应用。为此,本文提出了一种新的学习范式——基于偏好的上下文强化学习(ICPRL),该方法在预训练和部署阶段仅依赖偏好反馈,消除了对奖励监督的需求。研究了两种变体:基于即时偏好的强化学习(I-PRL)和基于轨迹偏好的强化学习(T-PRL)。实验表明,ICPRL能够在未见过的任务中实现强大的上下文泛化能力,性能可与使用完整奖励监督的ICRL方法相媲美。

AI 推荐理由

论文涉及基于偏好反馈的强化学习,与Agent Memory相关但非核心主题。

论文信息
作者 Juncheng Dong, Bowen He, Moyang Guo, Ethan X. Fang, Zhuoran Yang et al.
发布日期 2026-02-09
arXiv ID 2602.08244
相关性评分 5/10 (一般相关)