摘要
语言模型日益成为维护操作的咨询系统。为防止幻觉,现有系统通常将其限定在程序文档批准的步骤内。然而,实际操作中用户查询常偏离既定路径,要求模型在对话中途识别超范围输入,这一动态过程鲜有基准测试关注。本文提出 DiagFlowBench,包含来自消费制造商的 50 个工业诊断流程图转化而成的 1,676 轮多轮对话,对比了合规与超范围 utterances。对十个商业及开源模型的评估显示,其拒绝率差异巨大,模型常选择真实但语境不当的步骤而非编造事实。这种映射错误建议的内在合理性与权威性,揭示了基于流程系统的严峻脆弱性。
AI 推荐理由
论文评估模型在对话中识别超范围输入的逻辑判断与推理能力,防止幻觉。
研究机构
University of Groningen, PO Box 72, 9700 AB Groningen, The Netherlands
Vector Institute for Artificial Intelligence, MaRS Centre, Toronto, ON, Canada
论文信息