摘要
离线目标条件强化学习在长程任务中仍具挑战性。现有分层方法多依赖独立的高低层网络且仅生成单一子目标,难以协调复杂决策。受思维链启发,本文提出链式目标分层策略(CoGHP),将分层决策重构为统一架构下的自回归序列建模。该方法给定状态与最终目标,自回归生成潜在子目标序列及原始动作,每个子目标作为推理步骤约束后续预测。此外,首次采用 MLP-Mixer 骨干网络以捕捉状态、目标与动作间的结构关系。实验表明,CoGHP 在导航与操作基准上显著优于现有离线基线。
AI 推荐理由
论文提出分层策略,通过生成子目标序列解决长程任务规划问题,核心在于任务分解与多步计划。
研究机构
韩国国立首尔大学计算机工程系
论文信息