龙虾冲浪终于不迷路了！网页智能体新框架Avenir-Web开源即SOTA

AI技术研报 2026-04-30 08:32

+8819 阅读

AI冲浪不丝滑？

伦敦大学学院（UCL）、普林斯顿大学和爱丁堡大学的研究团队联合推出了Avenir-Web，让现有多模态模型像人类一样使用网页。

现有的Web Agent在面对复杂的网页结构（如 iframe、Shadow DOM）时，往往会陷入“定位不准”“缺乏常识”或“走着走着就忘了”的窘境。

特别是在长程任务（Long-horizon tasks）中，由于缺乏对特定网站操作流程的认知，Agent往往只能盲目探索，导致任务成功率低下。

Avenir-Web是一个不需要额外训练的新模型，本质上是一套开源的Agent Harness，也就是一个training-free的框架，在ONLINE-MIND2WEB上取得53.7%的成功率，刷新最强开源纪录。

龙虾冲浪终于不迷路了！网页智能体新框架Avenir-Web开源即SOTA

Web Agent 的三大难题

研究团队指出，目前Web Agent在实际部署中面临三个核心瓶颈：

元素定位不准（Inaccurate Grounding）：过度依赖DOM树，在处理非标准结构（如 Canvas、嵌套 iframe）时极易失效。
缺乏特定站点的流程知识（Site-specific Procedural Knowledge）：Agent不懂得参考“用户手册”或“攻略”，只能乱撞。
长程任务跟踪与记忆力不稳定（Unstable Memory）：跨页面操作时容易产生“导航漂移”，陷入重复错误的循环。

针对这些痛点，Avenir-Web提出了一套模块化的Agent Harness框架。

由于它是Harness，而不是需要重新训练的模型，因此整个方案天然具备training-free的部署优势。

Avenir-Web 的 Agent Harness 核心设计

龙虾冲浪终于不迷路了！网页智能体新框架Avenir-Web开源即SOTA

经验模仿规划（Experience-Imitation Planning, EIP）

人类在操作复杂网站时，往往会先搜一下攻略。

EIP模块模仿了这一行为：在任务开始前，它会利用大模型的在线搜索能力，检索目标网站的帮助中心、论坛或指南，并将这些信息转化为高层级的策略路线图。

这种“先读攻略再上手”的方法，大幅减少了Agent的盲目探索时间，也规避了不可逆的导航错误。

龙虾冲浪终于不迷路了！网页智能体新框架Avenir-Web开源即SOTA

混合定位专家（Mixture of Grounding Experts, MoGE）

MoGE采用“视觉优先”的原则。

它将整个网页视为一张统一的视觉画布，直接基于坐标进行交互。

这种方式天然地解决了让DOM派 Agent头疼的嵌套iframe问题。

当视觉信息不足时，MoGE会触发语义结构推理作为兜底方案。

这种“视觉坐标+语义兜底”的混合策略，使得Agent在处理各种UI范式时都具备极强的鲁棒性。

龙虾冲浪终于不迷路了！网页智能体新框架Avenir-Web开源即SOTA

任务跟踪清单（Task-Tracking Checklist）

为了防止Agent “跑偏”，研究团队引入了结构化的任务清单。

它将复杂指令分解为2-6个可验证的原子里程碑（Milestones），并在每一步操作后利用轻量级模型（如 Qwen-3-VL-8B）实时更新状态（Pending、In Progress、Completed、Failed）。

龙虾冲浪终于不迷路了！网页智能体新框架Avenir-Web开源即SOTA

自适应记忆（Adaptive Memory）

针对上下文过长导致的幻觉问题，Avenir-Web采用了分块递归摘要（Chunked Recursive Summarization）机制。

它维持一个大小为的滑动窗口，将历史操作提炼为抽象的记忆状态，并专门设置了“失败反思缓冲区”（Failure Reflection Buffer），确保Agent能从过去的错误中吸取教训。

龙虾冲浪终于不迷路了！网页智能体新框架Avenir-Web开源即SOTA

实验结果

研究团队在ONLINE-MIND2WEB这一包含136个真实网站、300个实时任务的严苛基准上进行了测试。

Avenir-Web（以Gemini 3 Pro为内核）取得了53.7%的成功率，相比之前的开源标杆SeeAct（30.0%）提升了整整23.7%。

龙虾冲浪终于不迷路了！网页智能体新框架Avenir-Web开源即SOTA

而且，Avenir-Web的表现超越了闭源Claude Computer Use 3.7（47.3%）和ACT-1（52.7%），开始逼近OpenAI Operator（58.3%）等顶级商业Agent的水平。

即使使用完全开源且轻量的Qwen-3-VL-8B作为内核，Avenir-Web依然取得了25.7%的成功率，已经逼近Browser Use（26.0%）与Agent-E（27.0%）等早期基于GPT-4o的重型Agent。

这也说明，作为一套无需额外训练即可接入现有模型的开源Agent Harness，Avenir-Web在轻量模型上同样具备可观的实战价值。

消融实验：谁才是关键？

研究人员通过消融实验验证了各模块的贡献度。结果显示：

去除EIP（经验模仿）后，成功率从48.0%直接降至36.0%，暴跌12.0%，证明了外部知识对Web任务的至关重要性。
去除MoGE（混合定位）后，成功率会从48.0%降至40.0%；去除自适应记忆后，成功率则会进一步降至42.0%甚至36.0%，说明定位与记忆模块都不可或缺。

特别是对于长程任务，递归摘要机制有效避免了上下文溢出带来的决策混乱。

龙虾冲浪终于不迷路了！网页智能体新框架Avenir-Web开源即SOTA

研究团队表示，Avenir-Web为通向具备人类级可靠性的通用数字助理迈出了坚实的一步。

目前，该项目已开源，开发者无需训练新模型，就可以把这套Agent Harness用于自动化、软件测试及智能助手等场景的进一步探索。

论文链接：https://arxiv.org/abs/2602.02468代码链接：https://github.com/Princeton-AI2-Lab/Avenir-Web

文章来自于微信公众号 "量子位"，作者 "量子位"

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。

项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。

项目地址：https://github.com/Significant-Gravitas/AutoGPT

【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点，无需魔法付费，即可无限制使用GPT-4o等多个海外模型产品。

在线使用：https://ffa.chat/