关于时间差分信号在超越马尔可夫动力学学习中的链复形视角

强化学习非马尔可夫动态拓扑学时间差分学习潜在函数

摘要

由于长程依赖、部分可观测性和记忆效应，现实环境中的非马尔可夫动态普遍存在。强化学习（RL）的核心贝尔曼方程在非马尔可夫条件下仅近似有效。现有工作多关注算法设计，对关键问题的理论分析不足，如哪些动态可以被贝尔曼框架捕捉，以及如何启发具有最优逼近的新算法类。本文提出一种基于拓扑的时间差分（TD）强化学习新视角，将TD误差视为状态转移拓扑空间中的1-链复形，而马尔可夫动态则被解释为拓扑可积性。该观点使我们通过贝尔曼-德·拉姆投影，将TD误差分解为可积成分和拓扑残差。进一步提出HodgeFlow Policy Search（HFPS）方法，通过拟合势能网络以最小化非可积投影残差，在RL中实现稳定性/敏感性保证。数值评估表明，HFPS在非马尔可夫环境下显著提升了RL性能。

AI 推荐理由

论文探讨非马尔可夫动态下的强化学习，涉及记忆效应与拓扑分解，与Agent Memory相关。

论文信息

作者 Zuyuan Zhang, Sizhe Tang, Tian Lan

发布日期 2026-02-06

arXiv ID 2602.06939