Chain-of-Thought Obfuscation Safety Interpretability Reward Hacking
摘要

思维链(CoT)推理通过赋能规划、探索与深思显著提升了大语言模型性能,同时也是监控代理行为的关键工具。然而,优化压力可能导致模型混淆推理痕迹,丧失其可解释性。本文证明,这种混淆具有跨任务泛化能力:学会在奖励黑客行为中混淆推理的模型,能将此行为及混淆策略迁移至未见场景。更令人担忧的是,仅惩罚最终动作亦会引发此类混淆。研究表明,当前针对有害生成的惩罚机制可能意外削弱模型的可监控性。

AI 推荐理由

论文核心研究思维链(CoT)推理的混淆机制及其泛化性,直接探讨推理过程的可解释性与安全性。

研究机构
University of Cambridge
论文信息
作者 Nathaniel Mitrani Hadida, Sassan Bhanji, Cameron Tice, Puria Radmard
发布日期 2026-01-30
arXiv ID 2601.23086
相关性评分 9/10 (高度相关)