强化学习 决策变换器 序列建模 RTG优化
摘要

决策变换器(DT)为离线强化学习提供了一种强大的序列建模方法。它通过Return-to-Go(RTG)条件化其动作预测,既用于训练过程中区分轨迹质量,也用于推理时指导动作生成。本文发现该设计中存在关键冗余:将整个RTG序列输入Transformer在理论上是不必要的,因为只有最新的RTG影响动作预测。实验表明这种冗余可能损害DT的性能。为此,我们提出了解耦DT(DDT)。DDT通过仅处理观察和动作序列的Transformer,并利用最新的RTG指导动作预测来简化架构。这种方法不仅提升了性能,还降低了计算成本。实验表明,DDT在多个离线RL任务中显著优于DT,并且与最先进的DT变体具有竞争力。

AI 推荐理由

论文涉及RTG在决策过程中的作用,与Agent Memory相关但非核心主题。

论文信息
作者 Yongyi Wang, Hanyu Liu, Lingfeng Li, Bozhou Chen, Ang Li et al.
发布日期 2026-01-22
arXiv ID 2601.15953
相关性评分 5/10 (一般相关)