摘要
开放式的对话代理旨在通过适应用户特征来提供引人入胜、个性化的互动,但现有方法面临关键限制:过度依赖预收集的用户数据,以及强化学习(RL)中的短期偏见,忽视了长期对话价值。为了解决这些问题,我们提出了一种新的长期RL框架,结合在线个性化与自适应树基组相对策略优化(AT-GRPO)。采用双代理博弈范式,用户代理通过风格模仿(学习用户特定的对话特征)和主动终止(预测回合级终止概率作为即时奖励)构建动态环境,形成一个迭代循环,推动对话代理深入兴趣探索。AT-GRPO将对话轨迹重新解释为树结构,并引入自适应观察范围。与全树扩展带来的指数级开销不同,它限制每个节点仅从阶段感知范围内聚合奖励:较大的范围支持早期话题探索,而较小的范围有助于后期对话维护。这种设计将对话长度的展开预算从指数级降低到多项式级,同时保留长期奖励捕获能力。大量实验表明,我们的框架在性能、样本效率和鲁棒性方面均表现出色。
AI 推荐理由
论文涉及长期对话价值和个性化交互,与记忆机制相关,但非核心主题。
论文信息