摘要
尽管大型语言模型(LLM)的能力已经扩展,但其安全防护机制大多仍为无状态,将多轮对话视为一系列独立事件。这种缺乏时间感知的方式导致了“安全漏洞”,使得诸如Crescendo和ActorAttack等对抗性策略能够逐步在对话轮次之间渗透恶意意图,从而绕过无状态过滤器。本文提出DeepContext,一种有状态的监控框架,旨在映射用户意图的时间轨迹。DeepContext摒弃了孤立评估模型,采用递归神经网络(RNN)架构,输入经过微调的每轮嵌入序列。通过在对话中传播隐藏状态,DeepContext捕捉到无状态模型忽略的风险累积。实验表明,DeepContext在多轮越狱检测中显著优于现有基线,达到最先进的F1分数0.84,相较于主流云服务提供商和开源模型如Llama-Prompt-Guard-2(0.67)和Granite-Guardian(0.67)有明显提升。此外,DeepContext在T4 GPU上的推理开销低于20ms,确保了实时应用的可行性。这些结果表明,对意图序列演化的建模是一种更有效且计算效率更高的替代方案,而非依赖大规模无状态模型。
AI 推荐理由
论文提出基于RNN的序列建模方法,用于捕捉对话中的意图演变,与Agent Memory相关。
论文信息