何时足够才算足够？搜索代理中的幻觉式完成

Search Agents Multi-constraint Reasoning Hallucination Evaluation Framework

摘要

近期搜索代理利用多轮推理和搜索工具在复杂基准测试中表现优异，但其在多约束问题中跟踪、验证及维持多个条件的能力尚不明确。研究发现代理常出现“幻觉式完成”，即在约束未满足时误判任务完成。为此，作者提出“认知账本”评估框架以诊断证据支持与信念状态，识别出四种失败模式。进一步提出的推理时追踪器 LiveLedger 通过显式跟踪约束状态，显著减少了未充分验证的答案并提升了整体准确率。

AI 推荐理由

论文核心研究多约束下的推理缺陷及验证机制，提出推理时追踪方法提升准确性。

研究机构

韩国科学技术院

论文信息

作者 Dayoon Ko, Jihyuk Kim, Sohyeon Kim, Haeju Park, Dahyun Lee et al.

发布日期 2026-02-07

arXiv ID 2602.07549