强化学习 非马尔可夫动态 拓扑学 时间差分学习 潜在函数
摘要

由于长程依赖、部分可观测性和记忆效应,现实环境中的非马尔可夫动态普遍存在。强化学习(RL)的核心贝尔曼方程在非马尔可夫条件下仅近似有效。现有工作多关注算法设计,对关键问题的理论分析不足,如哪些动态可以被贝尔曼框架捕捉,以及如何启发具有最优逼近的新算法类。本文提出一种基于拓扑的时间差分(TD)强化学习新视角,将TD误差视为状态转移拓扑空间中的1-链复形,而马尔可夫动态则被解释为拓扑可积性。该观点使我们通过贝尔曼-德·拉姆投影,将TD误差分解为可积成分和拓扑残差。进一步提出HodgeFlow Policy Search(HFPS)方法,通过拟合势能网络以最小化非可积投影残差,在RL中实现稳定性/敏感性保证。数值评估表明,HFPS在非马尔可夫环境下显著提升了RL性能。

AI 推荐理由

论文探讨非马尔可夫动态下的强化学习,涉及记忆效应与拓扑分解,与Agent Memory相关。

论文信息
作者 Zuyuan Zhang, Sizhe Tang, Tian Lan
发布日期 2026-02-06
arXiv ID 2602.06939
相关性评分 7/10 (相关)