摘要
稳健的大语言模型测谎器可用于审计和监控,但评估需依赖模型言行不一的测试环境。现有模型有机体常无法满足此要求。本文提出 13 种经思维链验证隐藏信念的推理模型有机体,以及涵盖多种欺骗动机的“多样化欺骗”测试床。在此基准上评估了四种检测器,发现基于激活和日志概率的检测器在训练有机体上表现骤降,而思维链法官因验证过程偏向可读信念仍保持强劲。研究表明当前测谎器难以高置信度断言模型信念,并指出了改进方向。
AI 推荐理由
论文利用思维链验证模型信念以评估测谎器,推理机制是核心评估手段。
研究机构
AI Security Institute
论文信息