面向长程离线目标条件强化学习的链式目标分层策略

Hierarchical RL Goal-Conditioned Long-Horizon Planning Sequence Modeling

摘要

离线目标条件强化学习在长程任务中仍具挑战性。现有分层方法多依赖独立的高低层网络且仅生成单一子目标，难以协调复杂决策。受思维链启发，本文提出链式目标分层策略（CoGHP），将分层决策重构为统一架构下的自回归序列建模。该方法给定状态与最终目标，自回归生成潜在子目标序列及原始动作，每个子目标作为推理步骤约束后续预测。此外，首次采用 MLP-Mixer 骨干网络以捕捉状态、目标与动作间的结构关系。实验表明，CoGHP 在导航与操作基准上显著优于现有离线基线。

AI 推荐理由

论文提出分层策略，通过生成子目标序列解决长程任务规划问题，核心在于任务分解与多步计划。

研究机构

韩国国立首尔大学计算机工程系

论文信息

作者 Jinwoo Choi, Sang-Hyun Lee, Seung-Woo Seo

发布日期 2026-02-03

arXiv ID 2602.03389