Mission Planning Reinforcement Learning Active Debris Removal Robustness MCTS
摘要

针对主动碎片清除(ADR)自主任务规划需在效率、适应性及严格约束间平衡的问题,本文对比了三种规划器:标称掩码近端策略优化(PPO)、域随机化掩码 PPO 及蒙特卡洛树搜索(MCTS)。在高保真轨道仿真中,通过 300 个测试案例评估发现,标称 PPO 在分布偏移下性能骤降,而域随机化 PPO 显著提升了适应性。MCTS 虽最能应对约束变化,但计算成本极高。研究揭示了学习策略速度与搜索方法适应性间的权衡,提出结合训练多样性与在线规划的未来方向。

AI 推荐理由

论文核心对比了基于学习(PPO)与搜索(MCTS)的规划器在任务规划中的鲁棒性与适应性。

研究机构
德国数学与计算机科学学院,弗赖堡大学
论文信息
作者 Agni Bandyopadhyay, Günther Waxenegger-Wilfing
发布日期 2026-02-04
arXiv ID 2602.05091
相关性评分 9/10 (高度相关)