摘要
在经典软件中,确定性推理是一种理想的范式:相同的程序和输入应始终产生相同的输出。随着大语言模型(LLMs)进入实际部署,这一理想被直接引入到推理栈中。近期来自Thinking Machines Lab的研究详细分析了LLM推理中的非确定性,展示了如何通过批量不变核和确定性注意力实现位精确输出,并将确定性推理视为可重复性和企业可靠性的前提条件。本文持相反立场,认为对于LLMs而言,确定性推理是有害的。它削弱了建模不确定性的能力,抑制了涌现能力,使推理退化为单一脆弱路径,并通过隐藏尾部风险削弱了安全对齐。LLMs实现的是输出的条件分布,而非固定函数。将这些分布压缩为单一规范完成虽然看似令人安心,但会系统性地掩盖人工认知的核心属性。我们主张采用随机混沌(Stochastic CHAOS),将分布可变性视为需要测量和控制的信号。实证研究表明,确定性推理具有系统性误导性。单样本确定性评估低估了能力和脆弱性,掩盖了在同义词替换和噪声下的失败概率。与涌现能力相关的类似相变现象在贪婪解码下消失。当被迫使用确定性主干时,多路径推理性能下降,准确性和诊断洞察力降低。最后,确定性评估低估了安全性风险,因为它隐藏了仅在多样本评估中出现的罕见但危险的行为。
AI 推荐理由
论文讨论了确定性推理对LLM的影响,间接涉及记忆机制的分布特性与不确定性。
论文信息