Reinforcement Learning Caregiver Agents Reward Optimization Long-horizon Planning
摘要

针对长程照护智能体需平衡延迟任务目标与即时环境动态(如患者痛苦)的难题,本文提出轮次 - 轨迹组相对策略优化($T^{2}$-GRPO)。该框架将强化学习解耦为两个归一化奖励视界,并通过二元硬否决机制确保安全。它直接从环境状态转移中推导密集的轮次级奖励,结合独立中心秩归一化融合轨迹级评估,有效缓解奖励坍塌。实验表明,该方法在痴呆症照护场景中显著优于基线,能更好地处理即时反馈、长期结果及安全约束。

AI 推荐理由

论文聚焦长程任务中的奖励分配与策略优化,核心解决多步规划中的延迟目标平衡问题。

研究机构
University of California, Irvine Independent Researcher Kennesaw State University
论文信息
作者 Yutong Song, Jiang Wu, Pengfei Zhang, Wenjun Huang, Honghui Xu et al.
发布日期 2026-06-07
arXiv ID 2606.08875
相关性评分 8/10 (高度相关)