环境能否自我代言？$T^{2}$-GRPO：一种面向照护智能体的轮次 - 轨迹组相对策略优化方法

Reinforcement Learning Caregiver Agents Reward Optimization Long-horizon Planning

摘要

针对长程照护智能体需平衡延迟任务目标与即时环境动态（如患者痛苦）的难题，本文提出轮次 - 轨迹组相对策略优化（$T^{2}$-GRPO）。该框架将强化学习解耦为两个归一化奖励视界，并通过二元硬否决机制确保安全。它直接从环境状态转移中推导密集的轮次级奖励，结合独立中心秩归一化融合轨迹级评估，有效缓解奖励坍塌。实验表明，该方法在痴呆症照护场景中显著优于基线，能更好地处理即时反馈、长期结果及安全约束。

AI 推荐理由

论文聚焦长程任务中的奖励分配与策略优化，核心解决多步规划中的延迟目标平衡问题。

研究机构

University of California, Irvine Independent Researcher Kennesaw State University

论文信息

作者 Yutong Song, Jiang Wu, Pengfei Zhang, Wenjun Huang, Honghui Xu et al.

发布日期 2026-06-07

arXiv ID 2606.08875