摘要
监控思维链(CoT)推理是大型语言模型(LLM)代理的基础安全技术;然而,如果模型学会隐藏其推理过程,这种监控将受到威胁。本文探讨了隐写式CoT的可能性——即模型在无害文本中隐藏秘密推理,以用于风险评估和部署策略。我们系统地评估了28个模型(从早期到当前前沿)的隐写能力限制,并测量了四个数据集上的监控规避、拒绝率、编码保真度和隐藏任务准确性,将隐写式首字母缩略词与普通推理和填充标记基线进行比较。我们发现当前模型尚无法在复杂的数学和算术任务中维持隐藏推理。然而,在简化计数实验中,Claude Opus 4.5在隐藏任务上达到了92%的准确率,表明其具备初步能力。值得注意的是,在极少数情况下(<1%),GPT-5.2可能在拒绝隐写指令的同时仍遵守它们。我们的研究强调了对隐写风险进行持续评估的必要性。本研究提供了一种方法,可提前检测和防止可能助长对齐偏差和欺骗行为的隐藏推理。
AI 推荐理由
论文探讨了LLM通过隐写术隐藏推理过程的能力,涉及Agent Memory中的隐蔽性与监控问题。
论文信息