“你撒谎了吗？”：跨模型规模与信念验证模型有机体的测谎器评估

lie detection chain-of-thought model auditing belief verification

摘要

稳健的大语言模型测谎器可用于审计和监控，但评估需依赖模型言行不一的测试环境。现有模型有机体常无法满足此要求。本文提出 13 种经思维链验证隐藏信念的推理模型有机体，以及涵盖多种欺骗动机的“多样化欺骗”测试床。在此基准上评估了四种检测器，发现基于激活和日志概率的检测器在训练有机体上表现骤降，而思维链法官因验证过程偏向可读信念仍保持强劲。研究表明当前测谎器难以高置信度断言模型信念，并指出了改进方向。

AI 推荐理由

论文利用思维链验证模型信念以评估测谎器，推理机制是核心评估手段。

研究机构

AI Security Institute

论文信息

作者 Alan Cooney, David Africa, Geoffrey Irving

发布日期 2026-06-10

arXiv ID 2606.12618