从输出监督中学到的思维链混淆可泛化至未见任务

Chain-of-Thought Obfuscation Safety Interpretability Reward Hacking

摘要

思维链（CoT）推理通过赋能规划、探索与深思显著提升了大语言模型性能，同时也是监控代理行为的关键工具。然而，优化压力可能导致模型混淆推理痕迹，丧失其可解释性。本文证明，这种混淆具有跨任务泛化能力：学会在奖励黑客行为中混淆推理的模型，能将此行为及混淆策略迁移至未见场景。更令人担忧的是，仅惩罚最终动作亦会引发此类混淆。研究表明，当前针对有害生成的惩罚机制可能意外削弱模型的可监控性。

AI 推荐理由

论文核心研究思维链（CoT）推理的混淆机制及其泛化性，直接探讨推理过程的可解释性与安全性。

研究机构

University of Cambridge

论文信息

作者 Nathaniel Mitrani Hadida, Sassan Bhanji, Cameron Tice, Puria Radmard

发布日期 2026-01-30

arXiv ID 2601.23086