摘要
近期的搜索代理通过多轮推理和搜索工具在多跳和长视野基准测试中表现出色。然而,尚不清楚它们是否能可靠地追踪、验证并维护多个条件以满足所有要求。本文研究了这一能力在多约束问题中的表现,其中有效答案必须同时满足多个约束条件。我们发现,幻觉完成现象频繁发生,即代理认为任务已完成,尽管存在未解决或违反的约束条件,导致答案验证不足。为诊断此行为,我们引入了认知账本(Epistemic Ledger),一个用于跟踪多轮推理过程中每个约束条件的证据支持和代理信念的评估框架。分析揭示了四种常见的失败模式:空断言、忽视反驳、停滞和提前退出。受这些发现的启发,我们研究了执行过程中显式跟踪约束状态是否能缓解这些失败,并提出了LiveLedger这一推理时的跟踪器。这种简单干预显著提升了性能,大幅减少了验证不足的答案(最多减少26.5%),并提高了多约束问题的整体准确性(最多提高11.6%)。
AI 推荐理由
论文探讨了搜索代理在多约束问题中的推理缺陷,涉及对约束状态的跟踪与验证,与Agent Memory相关。
论文信息