摘要
近年来,基于大语言模型(LLM)的助手已引入记忆机制以记录用户偏好,从而生成更符合用户需求的响应。然而,不相关的个性化记忆常被引入上下文,干扰LLM对意图的理解。为全面研究个性化的影响,我们开发了RPEval基准,包含一个个性化意图推理数据集和多粒度评估协议。RPEval揭示了现有LLM中广泛存在的非理性个性化现象,并通过错误模式分析说明其对用户体验的负面影响。最后,我们提出了RP-Reasoner,将记忆利用视为一种实用推理过程,实现个性化信息的选择性整合。实验结果表明,我们的方法在RPEval上显著优于精心设计的基线,并解决了大规模商业个性化助手中80%的不良案例,突显了实用推理在缓解非理性个性化方面的潜力。我们的基准已在https://github.com/XueyangFeng/RPEval公开。
AI 推荐理由
论文核心研究LLM个性化记忆对行为的影响,提出评估基准和解决方法,直接涉及Agent Memory机制。
论文信息