Long-Term Memory Safety Risks Benchmark LLM Evaluation
摘要

对话助手正日益将长期记忆与大语言模型整合,以增强个性化体验。然而,这种记忆持久性也引入了被忽视的安全风险。本文提出 PersistBench 基准以量化此类风险,识别出跨域泄露和记忆诱导的阿谀奉承两类特有风险。对 18 个前沿及开源模型的评估显示,其失败率惊人。该基准旨在推动开发更稳健、安全的长期记忆使用机制,以提升对话系统的安全性。

AI 推荐理由

论文核心研究长期记忆的安全风险与遗忘机制,直接针对记忆架构的鲁棒性。

研究机构
University of Cambridge
论文信息
作者 Sidharth Pulipaka, Oliver Chen, Manas Sharma, Taaha S Bajwa, Vyas Raina et al.
发布日期 2026-02-01
arXiv ID 2602.01146
相关性评分 9/10 (高度相关)