摘要
本文探讨大语言模型在二选一决策中是单纯模仿理由,还是反映系统的底层决策结构。通过合成属性分级实验,对比模型自述的重要属性与行为模型推断的实际驱动因素。结果显示,模型行为具有系统性且可预测,但其显式理由仅部分匹配实际驱动因素。这种“表面信念”现象在不同提示顺序、采样扰动及决策场景中持续存在,表明模型虽受属性优先级引导,但缺乏对决策驱动因素的完整言语访问能力。
AI 推荐理由
研究 LLM 决策背后的推理结构与显式理由的不一致性,核心涉及推理机制。
研究机构
Department of Computing, Imperial College London
论文信息