Web Agent Multimodal LLM Task Planning Long-horizon Tasks
摘要

尽管多模态大语言模型取得进展,自主 Web 智能体在复杂动态界面执行长程任务时仍面临挑战,常受限于元素定位不准、缺乏特定站点程序性知识及长期任务跟踪不稳定。为此,本文提出 Avenir-Web,该智能体利用混合接地专家、融入程序先验的经验模仿规划,以及结合自适应记忆的任务跟踪清单,实现了跨多样用户界面范式的稳健交互。在 Online-Mind2Web 基准上的评估表明,Avenir-Web 显著超越现有开源智能体,性能媲美顶级专有模型,确立了实时网站可靠 Web 智能体的新开源最先进水平。

AI 推荐理由

论文提出经验模仿规划与自适应记忆,核心解决长程任务规划与跟踪难题。

研究机构
中国科学院
论文信息
作者 Aiden Yiliu Li, Xinyue Hao, Shilong Liu, Mengdi Wang
发布日期 2026-02-02
arXiv ID 2602.02468
相关性评分 9/10 (高度相关)