LLM Prompting Uncertainty Detection Closed-book QA Model Reliability
摘要

大型语言模型在封闭式问答任务中常难以识别自身知识的局限性,导致自信的幻觉。尽管分解提示通常用于提高准确性,本文研究其对可靠性的影晌。我们评估了三种任务等效的提示策略:直接、辅助和增量,在不同规模模型和多跳QA基准上进行测试。发现虽然分解带来的准确率提升在前沿模型中减弱,但不同提示策略之间的分歧仍能高度指示潜在错误。由于事实知识是稳定的而幻觉是随机的,跨策略的一致性提供了内部不确定性的精确信号。我们利用这一信号实现了一种无需检索或微调的训练自由弃权策略。结果表明,基于分歧的弃权方法优于标准不确定性基线作为错误检测器,在多种设置下提升了F1和AUROC指标。这表明基于分解的提示可以作为封闭式问答中模型可靠性的一种实用诊断工具。

AI 推荐理由

论文探讨了分解提示对模型不确定性的检测作用,与Agent Memory中的可靠性机制相关。

论文信息
作者 Dhruv Madhwal, Lyuxin David Zhang, Dan Roth, Tomer Wolfson, Vivek Gupta
发布日期 2026-02-04
arXiv ID 2602.04853
相关性评分 7/10 (相关)