Avenir-Web：基于混合接地专家与人类经验模仿的多模态 Web 智能体

Web Agent Multimodal LLM Task Planning Long-horizon Tasks

摘要

尽管多模态大语言模型取得进展，自主 Web 智能体在复杂动态界面执行长程任务时仍面临挑战，常受限于元素定位不准、缺乏特定站点程序性知识及长期任务跟踪不稳定。为此，本文提出 Avenir-Web，该智能体利用混合接地专家、融入程序先验的经验模仿规划，以及结合自适应记忆的任务跟踪清单，实现了跨多样用户界面范式的稳健交互。在 Online-Mind2Web 基准上的评估表明，Avenir-Web 显著超越现有开源智能体，性能媲美顶级专有模型，确立了实时网站可靠 Web 智能体的新开源最先进水平。

AI 推荐理由

论文提出经验模仿规划与自适应记忆，核心解决长程任务规划与跟踪难题。

研究机构

中国科学院

论文信息

作者 Aiden Yiliu Li, Xinyue Hao, Shilong Liu, Mengdi Wang

发布日期 2026-02-02

arXiv ID 2602.02468