DiagFlowBench：评估语言模型在基于流程的诊断对话中如何处理非程序性输入

diagnostic dialogue hallucination prevention out-of-scope detection grounded LLM

摘要

语言模型日益成为维护操作的咨询系统。为防止幻觉，现有系统通常将其限定在程序文档批准的步骤内。然而，实际操作中用户查询常偏离既定路径，要求模型在对话中途识别超范围输入，这一动态过程鲜有基准测试关注。本文提出 DiagFlowBench，包含来自消费制造商的 50 个工业诊断流程图转化而成的 1,676 轮多轮对话，对比了合规与超范围 utterances。对十个商业及开源模型的评估显示，其拒绝率差异巨大，模型常选择真实但语境不当的步骤而非编造事实。这种映射错误建议的内在合理性与权威性，揭示了基于流程系统的严峻脆弱性。

AI 推荐理由

论文评估模型在对话中识别超范围输入的逻辑判断与推理能力，防止幻觉。

研究机构

University of Groningen, PO Box 72, 9700 AB Groningen, The Netherlands Vector Institute for Artificial Intelligence, MaRS Centre, Toronto, ON, Canada

论文信息

作者 Guillermo Gil de Avalle, Laura Maruster, Shaina Raza, Christos Emmanouilidis

发布日期 2026-06-16

arXiv ID 2606.17904