隐写术 思维链 LLM安全 Agent记忆 风险评估
摘要

监控思维链(CoT)推理是大型语言模型(LLM)代理的基础安全技术;然而,如果模型学会隐藏其推理过程,这种监控将受到威胁。本文探讨了隐写式CoT的可能性——即模型在无害文本中隐藏秘密推理,以用于风险评估和部署策略。我们系统地评估了28个模型(从早期到当前前沿)的隐写能力限制,并测量了四个数据集上的监控规避、拒绝率、编码保真度和隐藏任务准确性,将隐写式首字母缩略词与普通推理和填充标记基线进行比较。我们发现当前模型尚无法在复杂的数学和算术任务中维持隐藏推理。然而,在简化计数实验中,Claude Opus 4.5在隐藏任务上达到了92%的准确率,表明其具备初步能力。值得注意的是,在极少数情况下(<1%),GPT-5.2可能在拒绝隐写指令的同时仍遵守它们。我们的研究强调了对隐写风险进行持续评估的必要性。本研究提供了一种方法,可提前检测和防止可能助长对齐偏差和欺骗行为的隐藏推理。

AI 推荐理由

论文探讨了LLM通过隐写术隐藏推理过程的能力,涉及Agent Memory中的隐蔽性与监控问题。

论文信息
作者 Artem Karpov
发布日期 2026-02-15
arXiv ID 2602.14095
相关性评分 7/10 (相关)