大语言模型决策中的表面信念

LLM 决策机制可解释性表面信念行为建模

摘要

本文探讨大语言模型在二选一决策中是单纯模仿理由，还是反映系统的底层决策结构。通过合成属性分级实验，对比模型自述的重要属性与行为模型推断的实际驱动因素。结果显示，模型行为具有系统性且可预测，但其显式理由仅部分匹配实际驱动因素。这种“表面信念”现象在不同提示顺序、采样扰动及决策场景中持续存在，表明模型虽受属性优先级引导，但缺乏对决策驱动因素的完整言语访问能力。

AI 推荐理由

研究 LLM 决策背后的推理结构与显式理由的不一致性，核心涉及推理机制。

研究机构

Department of Computing, Imperial College London

论文信息

作者 Gabriel Freedman, Francesca Toni

发布日期 2026-06-09

arXiv ID 2606.11016