“我可能没有表达清楚”：诊断大语言模型推理时的动态不稳定性

LLM 推理动态不稳定性故障诊断无训练方法

摘要

本文研究大语言模型（LLM）在推理过程中发生的“断线”式失败，提出一种无需训练的检测方法。通过分析推断时可观测的令牌对数概率，结合分布偏移与不确定性构建不稳定性信号。研究发现，早期不稳定性可能预示修正（纠正性），而晚期不稳定性常导致失败（破坏性）。该方法能有效预测错误答案，揭示了推理恢复能力与不稳定性发生时机的关键联系，为理解推理过程提供了新的诊断视角。

AI 推荐理由

论文核心研究 LLM 推理过程中的动态不稳定性诊断，直接针对推理失败机制。

研究机构

清华大学微软亚洲研究院

论文信息

作者 Jinkun Chen, Fengxiang Cheng, Sijia Han, Vlado Keselj

发布日期 2026-02-02

arXiv ID 2602.02863