LLM 决策机制 可解释性 表面信念 行为建模
摘要

本文探讨大语言模型在二选一决策中是单纯模仿理由,还是反映系统的底层决策结构。通过合成属性分级实验,对比模型自述的重要属性与行为模型推断的实际驱动因素。结果显示,模型行为具有系统性且可预测,但其显式理由仅部分匹配实际驱动因素。这种“表面信念”现象在不同提示顺序、采样扰动及决策场景中持续存在,表明模型虽受属性优先级引导,但缺乏对决策驱动因素的完整言语访问能力。

AI 推荐理由

研究 LLM 决策背后的推理结构与显式理由的不一致性,核心涉及推理机制。

研究机构
Department of Computing, Imperial College London
论文信息
作者 Gabriel Freedman, Francesca Toni
发布日期 2026-06-09
arXiv ID 2606.11016
相关性评分 8/10 (高度相关)