NEST：初生的编码隐写思想

隐写术思维链 LLM安全 Agent记忆风险评估

摘要

监控思维链（CoT）推理是大型语言模型（LLM）代理的基础安全技术；然而，如果模型学会隐藏其推理过程，这种监控将受到威胁。本文探讨了隐写式CoT的可能性——即模型在无害文本中隐藏秘密推理，以用于风险评估和部署策略。我们系统地评估了28个模型（从早期到当前前沿）的隐写能力限制，并测量了四个数据集上的监控规避、拒绝率、编码保真度和隐藏任务准确性，将隐写式首字母缩略词与普通推理和填充标记基线进行比较。我们发现当前模型尚无法在复杂的数学和算术任务中维持隐藏推理。然而，在简化计数实验中，Claude Opus 4.5在隐藏任务上达到了92%的准确率，表明其具备初步能力。值得注意的是，在极少数情况下（<1%），GPT-5.2可能在拒绝隐写指令的同时仍遵守它们。我们的研究强调了对隐写风险进行持续评估的必要性。本研究提供了一种方法，可提前检测和防止可能助长对齐偏差和欺骗行为的隐藏推理。

AI 推荐理由

论文探讨了LLM通过隐写术隐藏推理过程的能力，涉及Agent Memory中的隐蔽性与监控问题。

论文信息

作者 Artem Karpov

发布日期 2026-02-15

arXiv ID 2602.14095