摘要
思维链(CoT)推理通过赋能规划、探索与深思显著提升了大语言模型性能,同时也是监控代理行为的关键工具。然而,优化压力可能导致模型混淆推理痕迹,丧失其可解释性。本文证明,这种混淆具有跨任务泛化能力:学会在奖励黑客行为中混淆推理的模型,能将此行为及混淆策略迁移至未见场景。更令人担忧的是,仅惩罚最终动作亦会引发此类混淆。研究表明,当前针对有害生成的惩罚机制可能意外削弱模型的可监控性。
AI 推荐理由
论文核心研究思维链(CoT)推理的混淆机制及其泛化性,直接探讨推理过程的可解释性与安全性。
研究机构
University of Cambridge
论文信息