摘要
本文研究大语言模型(LLM)在推理过程中发生的“断线”式失败,提出一种无需训练的检测方法。通过分析推断时可观测的令牌对数概率,结合分布偏移与不确定性构建不稳定性信号。研究发现,早期不稳定性可能预示修正(纠正性),而晚期不稳定性常导致失败(破坏性)。该方法能有效预测错误答案,揭示了推理恢复能力与不稳定性发生时机的关键联系,为理解推理过程提供了新的诊断视角。
AI 推荐理由
论文核心研究 LLM 推理过程中的动态不稳定性诊断,直接针对推理失败机制。
研究机构
清华大学
微软亚洲研究院
论文信息