摘要
现有入侵性(后门)指纹方法存在高困惑度触发器易被过滤、启发式检测器暴露固定响应模式以及在良性输入上产生误激活等问题。本文提出ForgetMark,一种隐蔽的指纹框架,通过定向遗忘对来源进行编码。该方法利用辅助模型和预测熵排名构建一个紧凑且可读性强的键值对集合,并训练轻量级LoRA适配器以在不损害通用能力的前提下抑制原始键值。在黑盒/灰盒访问下,通过聚合似然性和语义证据计算指纹成功率来验证所有权。ForgetMark依赖于概率遗忘痕迹而非固定触发-响应模式,从而避免了高困惑度触发器,降低了可检测性和误触发率。在多种架构和设置中,ForgetMark在指纹模型上实现了100%的所有权验证,同时保持标准性能,其隐蔽性和对模型合并的鲁棒性优于后门基线方法,并在适度增量微调下仍有效。
AI 推荐理由
论文涉及基于遗忘机制的指纹嵌入,与Agent Memory相关但非唯一主题。
论文信息