Agent Memory 个性化学习 人机交互 持续学习
摘要

现代AI代理虽然功能强大,但往往难以与用户的个性化、动态变化的偏好保持一致。现有方法通常依赖静态数据集,通过交互历史训练隐式偏好模型或在外部存储中编码用户画像,但这些方法在面对新用户和随时间变化的偏好时表现不佳。本文提出了一种名为PAHF(从人类反馈中学习个性化代理)的框架,用于实现持续个性化,代理通过显式的每用户记忆在线学习实时交互数据。PAHF包含一个三步循环:(1)在行动前寻求澄清以解决歧义;(2)根据从记忆中检索出的偏好来指导行动;(3)通过行动后的反馈更新记忆以适应偏好的变化。为评估该能力,作者开发了一个四阶段协议及两个基准测试,分别应用于具身操作和在线购物场景。这些基准测试量化了代理从零开始学习初始偏好并随后适应角色转变的能力。理论分析与实验结果表明,将显式记忆与双通道反馈相结合至关重要:PAHF显著加快了学习速度,并且始终优于无记忆和单通道基线方法,减少了初始个性化误差并实现了对偏好变化的快速适应。

AI 推荐理由

论文核心围绕基于显式用户记忆的个性化代理框架,明确涉及Agent Memory机制与更新。

论文信息
作者 Kaiqu Liang, Julia Kruk, Shengyi Qian, Xianjun Yang, Shengjie Bi et al.
发布日期 2026-02-18
arXiv ID 2602.16173
相关性评分 8/10 (高度相关)