摘要
大语言模型通过适应用户偏好、上下文及长期历史实现了日益个性化的交互,但这也扩展了安全风险版图。本文首次对个性化大语言模型进行了全面的安全感知综述,构建了涵盖用户表示、范式及评估的统一分类法。文章深入分析了提示、检索增强、微调等主流范式中的固有漏洞,并综合了全生命周期的缓解策略。研究揭示了现有工作在评估框架上的结构性不足,提出了开发安全个性化模型的统一框架及未来方向。
AI 推荐理由
论文核心探讨基于用户长期历史和上下文的个性化机制,直接涉及记忆架构与安全风险的交集。
研究机构
1
论文信息