Benchmark Search Agents Dynamic Knowledge Reasoning Evaluation
摘要

针对现有搜索智能体基准依赖静态知识、易受数据污染及参数记忆影响的问题,本文提出 EvoBrowseComp。这是一个包含 800 个中英双语复杂问题的演化型基准,通过实时网络遍历合成。该研究设计了三智能体协作框架:问题合成代理获取新鲜知识,信息过滤代理阻断参数捷径,高层指导代理将问题形式化为推理图以减少逻辑冗余。实验表明该基准难度高且支持自动更新,为评估智能体在动态世界知识中的真实推理与广域搜索能力建立了可扩展范式。

AI 推荐理由

论文核心在于构建基准以评估 Agent 在动态知识下的真实推理与检索能力,防止记忆捷径。

研究机构
Northeastern University, China
论文信息
作者 Yunhan Wang, Jiaan Wang, Lianzhe Huang, Xianfeng Zeng, Fandong Meng
发布日期 2026-06-11
arXiv ID 2606.13120
相关性评分 8/10 (高度相关)