在上下文中学习，由选择引导：一种无需奖励的Transformer强化学习范式

强化学习偏好学习 Transformer 上下文学习

摘要

上下文强化学习（ICRL）利用Transformer模型的上下文学习能力，在无需参数更新的情况下高效泛化到未见过的序列决策任务。然而现有方法依赖显式奖励信号，限制了其在奖励模糊或难以获取时的应用。为此，本文提出了一种新的学习范式——基于偏好的上下文强化学习（ICPRL），该方法在预训练和部署阶段仅依赖偏好反馈，消除了对奖励监督的需求。研究了两种变体：基于即时偏好的强化学习（I-PRL）和基于轨迹偏好的强化学习（T-PRL）。实验表明，ICPRL能够在未见过的任务中实现强大的上下文泛化能力，性能可与使用完整奖励监督的ICRL方法相媲美。

AI 推荐理由

论文涉及基于偏好反馈的强化学习，与Agent Memory相关但非核心主题。

论文信息

作者 Juncheng Dong, Bowen He, Moyang Guo, Ethan X. Fang, Zhuoran Yang et al.

发布日期 2026-02-09

arXiv ID 2602.08244