Agent Planning Lookahead Reasoning Value Estimation Policy Optimization
摘要

现有的大型语言模型(LLM)代理在需要长期规划的交互环境中表现不佳,主要由于模拟未来状态时累积误差。为了解决这一问题,我们提出了ProAct框架,通过两阶段训练范式使代理能够内部化准确的前瞻性推理。首先,我们引入了基于环境搜索轨迹的监督微调方法Grounded LookAhead Distillation(GLAD),将复杂的搜索树压缩为简洁的因果推理链,从而无需推理时搜索即可学习前瞻性逻辑。其次,为了进一步提高决策准确性,我们提出了一种轻量级的蒙特卡洛批评者(MC-Critic),作为增强策略梯度算法(如PPO和GRPO)的辅助价值估计器。通过利用轻量级环境回滚校准价值估计,MC-Critic提供了低方差信号,有助于稳定策略优化,而无需依赖昂贵的模型基价值近似。实验表明,ProAct在随机(如2048)和确定性(如Sokoban)环境中显著提升了规划准确性。一个4B参数的ProAct模型超越了所有开源基线,并与最先进的闭源模型相媲美,同时展示了对未见过环境的鲁棒泛化能力。

AI 推荐理由

论文涉及前瞻性推理和记忆机制,但核心是规划与决策优化。

论文信息
作者 Yangbin Yu, Mingyu Yang, Junyou Li, Yiming Gao, Feiyu Liu et al.
发布日期 2026-02-05
arXiv ID 2602.05327
相关性评分 7/10 (相关)