强化学习 分层规划 信用分配 LLM代理 长期任务
摘要

将大型语言模型(LLMs)训练为能够进行多轮决策的交互式代理仍然具有挑战性,尤其是在稀疏且延迟奖励的长期任务中,代理必须执行一系列动作后才能获得有意义的反馈。现有的大多数强化学习(RL)方法将LLM代理建模为单一时间尺度上的扁平策略,每次仅选择一个动作。在稀疏奖励环境下,这种扁平策略需要在整个轨迹上传播信用,而没有显式的时序抽象,这通常会导致优化不稳定和信用分配效率低下。本文提出HiPER,一种新颖的分层计划-执行RL框架,明确地将高层规划与低层执行分离。HiPER将策略分解为一个高层规划器(提出子目标)和一个低层执行器(通过多个动作步骤实现这些子目标)。为了与这一结构对齐,我们引入了一种关键技术——分层优势估计(HAE),它在规划和执行层面仔细分配信用。通过聚合每个子目标执行过程中的回报,并协调两个层级的更新,HAE提供了一个无偏梯度估计器,并且相比扁平化的广义优势估计,其方差可被证明更小。实验表明,HiPER在具有挑战性的交互基准测试中表现优异,在ALFWorld上达到97.4%的成功率,在WebShop上达到83.3%(使用Qwen2.5-7B-Instruct,分别比最佳先前方法提高6.6%和8.3%),尤其在需要多个依赖子任务的长期任务中表现出显著提升。这些结果突显了显式分层分解对于可扩展的多轮LLM代理强化学习训练的重要性。

AI 推荐理由

论文涉及多步骤决策中的信用分配问题,与Agent Memory在长期任务中的信息存储和利用相关。

论文信息
作者 Jiangweizhi Peng, Yuanxin Liu, Ruida Zhou, Charles Fleming, Zhaoran Wang et al.
发布日期 2026-02-18
arXiv ID 2602.16165
相关性评分 6/10 (相关)