摘要
针对长程照护智能体需平衡延迟任务目标与即时环境动态(如患者痛苦)的难题,本文提出轮次 - 轨迹组相对策略优化($T^{2}$-GRPO)。该框架将强化学习解耦为两个归一化奖励视界,并通过二元硬否决机制确保安全。它直接从环境状态转移中推导密集的轮次级奖励,结合独立中心秩归一化融合轨迹级评估,有效缓解奖励坍塌。实验表明,该方法在痴呆症照护场景中显著优于基线,能更好地处理即时反馈、长期结果及安全约束。
AI 推荐理由
论文聚焦长程任务中的奖励分配与策略优化,核心解决多步规划中的延迟目标平衡问题。
研究机构
University of California, Irvine
Independent Researcher
Kennesaw State University
论文信息