摘要
针对大语言模型(LLM)部署关键的幻觉检测问题,本文提出自由能特征(Fes),一种将注意力图拉普拉斯算子视为哈密顿量并提取热力学势及随机矩阵理论谱形式因子的谱描述符。理论证明了其在注意力扰动下的稳定性、表达丰富性及无训练检测器的泛化边界。实验表明,基于 Fes 的轻量级探针在多个基准测试中优于现有谱基线方法。此外,研究发现正确生成呈现维格纳 - 戴森统计特性,而幻觉则更接近泊松统计。
AI 推荐理由
论文利用谱分析诊断推理质量并检测幻觉,虽非直接提升推理能力,但紧密关联推理状态的评估。
研究机构
Talan Research & Innovation Center
论文信息