摘要
提示注入仍然是大型语言模型安全部署的核心障碍,尤其在多智能体环境中,中间输出可能传播或放大恶意指令。本文在之前提出的四维总注入脆弱性评分(TIVS)基础上,引入基于语义相似性的缓存机制和第五个指标(可观察性评分比),构建了TIVS-O评估框架,并在受HOPE启发的嵌套学习架构中研究防御效果与透明度之间的关系。所提系统结合智能体流程与语义缓存的连续记忆系统,在301个合成生成的注入提示上进行测试,同时由第四个智能体使用五个关键性能指标进行全面安全分析。实验表明,该系统实现了零高风险漏洞的安全响应,语义缓存显著减少了计算开销,LLM调用次数减少41.6%,并降低了延迟、能耗和碳排放。五种TIVS-O配置揭示了缓解严格性与取证透明度之间的最佳权衡。结果表明,可观测性驱动的评估能够揭示多智能体流程中的非单调效应,且增强记忆的智能体可在不修改模型权重的情况下,联合优化安全性、实时性能、运营成本节约和环境可持续性。
AI 推荐理由
论文涉及基于语义缓存的Continuum Memory Systems,与Agent Memory相关但非唯一主题。
论文信息