评估基于学习的主动碎片清除任务规划的鲁棒性与适应性

Mission Planning Reinforcement Learning Active Debris Removal Robustness MCTS

摘要

针对主动碎片清除（ADR）自主任务规划需在效率、适应性及严格约束间平衡的问题，本文对比了三种规划器：标称掩码近端策略优化（PPO）、域随机化掩码 PPO 及蒙特卡洛树搜索（MCTS）。在高保真轨道仿真中，通过 300 个测试案例评估发现，标称 PPO 在分布偏移下性能骤降，而域随机化 PPO 显著提升了适应性。MCTS 虽最能应对约束变化，但计算成本极高。研究揭示了学习策略速度与搜索方法适应性间的权衡，提出结合训练多样性与在线规划的未来方向。

AI 推荐理由

论文核心对比了基于学习（PPO）与搜索（MCTS）的规划器在任务规划中的鲁棒性与适应性。

研究机构

德国数学与计算机科学学院，弗赖堡大学

论文信息

作者 Agni Bandyopadhyay, Günther Waxenegger-Wilfing

发布日期 2026-02-04

arXiv ID 2602.05091