摘要
由于长程依赖、部分可观测性和记忆效应,现实环境中的非马尔可夫动态普遍存在。强化学习(RL)的核心贝尔曼方程在非马尔可夫条件下仅近似有效。现有工作多关注算法设计,对关键问题的理论分析不足,如哪些动态可以被贝尔曼框架捕捉,以及如何启发具有最优逼近的新算法类。本文提出一种基于拓扑的时间差分(TD)强化学习新视角,将TD误差视为状态转移拓扑空间中的1-链复形,而马尔可夫动态则被解释为拓扑可积性。该观点使我们通过贝尔曼-德·拉姆投影,将TD误差分解为可积成分和拓扑残差。进一步提出HodgeFlow Policy Search(HFPS)方法,通过拟合势能网络以最小化非可积投影残差,在RL中实现稳定性/敏感性保证。数值评估表明,HFPS在非马尔可夫环境下显著提升了RL性能。
AI 推荐理由
论文探讨非马尔可夫动态下的强化学习,涉及记忆效应与拓扑分解,与Agent Memory相关。
论文信息