个性化遇上安全：个性化大语言模型中的机制、风险与缓解策略

Personalized LLMs AI Safety User Memory Risk Mitigation

摘要

大语言模型通过适应用户偏好、上下文及长期历史实现了日益个性化的交互，但这也扩展了安全风险版图。本文首次对个性化大语言模型进行了全面的安全感知综述，构建了涵盖用户表示、范式及评估的统一分类法。文章深入分析了提示、检索增强、微调等主流范式中的固有漏洞，并综合了全生命周期的缓解策略。研究揭示了现有工作在评估框架上的结构性不足，提出了开发安全个性化模型的统一框架及未来方向。

AI 推荐理由

论文核心探讨基于用户长期历史和上下文的个性化机制，直接涉及记忆架构与安全风险的交集。

研究机构

论文信息

作者 Yanyan Luo, Xue Han, Ruiqiao Bai, Xin Huang, Yitong Wang et al.

发布日期 2026-06-08

arXiv ID 2606.09038