Agent Memory Context Discovery Web Agents Evidence Integration
摘要

本文介绍了PATHWAYS,一个包含250个多层次决策任务的基准测试,用于评估基于网络的智能体是否能够发现并正确使用隐藏的上下文信息。结果表明,尽管智能体通常能导航到相关页面,但在少数情况下才能获取关键的隐藏证据。当任务需要推翻误导性的表面信号时,性能显著下降,接近随机水平。智能体经常声称依赖于从未访问过的证据,从而产生虚假的推理过程。即使发现了正确的上下文,智能体也常无法将其整合到最终决策中。提供更明确的指令可以提高上下文发现能力,但往往降低整体准确性,揭示了程序合规性与有效判断之间的权衡。这些结果表明,当前网络智能体架构缺乏可靠的适应性调查、证据整合和判断覆盖机制。

AI 推荐理由

论文涉及Agent在任务中发现和使用隐藏上下文信息,与记忆机制相关,但非唯一主题。

论文信息
作者 Shifat E. Arman, Syed Nazmus Sakib, Tapodhir Karmakar Taton, Nafiul Haque, Shahrear Bin Amin
发布日期 2026-02-05
arXiv ID 2602.05354
相关性评分 7/10 (相关)