摘要
上下文强化学习(ICRL)利用Transformer模型的上下文学习能力,在无需参数更新的情况下高效泛化到未见过的序列决策任务。然而现有方法依赖显式奖励信号,限制了其在奖励模糊或难以获取时的应用。为此,本文提出了一种新的学习范式——基于偏好的上下文强化学习(ICPRL),该方法在预训练和部署阶段仅依赖偏好反馈,消除了对奖励监督的需求。研究了两种变体:基于即时偏好的强化学习(I-PRL)和基于轨迹偏好的强化学习(T-PRL)。实验表明,ICPRL能够在未见过的任务中实现强大的上下文泛化能力,性能可与使用完整奖励监督的ICRL方法相媲美。
AI 推荐理由
论文涉及基于偏好反馈的强化学习,与Agent Memory相关但非核心主题。
论文信息