龙虾冲浪终于不迷路了!网页智能体新框架Avenir-Web开源即SOTA

下载 AITNT APP
🍎 iOS 下载 🤖 Android 下载
正文
资源拓展
龙虾冲浪终于不迷路了!网页智能体新框架Avenir-Web开源即SOTA
2026-04-30 08:32

AI冲浪不丝滑?


伦敦大学学院(UCL)、普林斯顿大学和爱丁堡大学的研究团队联合推出了Avenir-Web,让现有多模态模型像人类一样使用网页。


龙虾冲浪终于不迷路了!网页智能体新框架Avenir-Web开源即SOTA


现有的Web Agent在面对复杂的网页结构(如 iframe、Shadow DOM)时,往往会陷入“定位不准”“缺乏常识”或“走着走着就忘了”的窘境。


特别是在长程任务(Long-horizon tasks)中,由于缺乏对特定网站操作流程的认知,Agent往往只能盲目探索,导致任务成功率低下。


Avenir-Web是一个不需要额外训练的新模型,本质上是一套开源的Agent Harness,也就是一个training-free的框架,在ONLINE-MIND2WEB上取得53.7%的成功率,刷新最强开源纪录。


龙虾冲浪终于不迷路了!网页智能体新框架Avenir-Web开源即SOTA


Web Agent 的三大难题


研究团队指出,目前Web Agent在实际部署中面临三个核心瓶颈:


  1. 元素定位不准(Inaccurate Grounding):过度依赖DOM树,在处理非标准结构(如 Canvas、嵌套 iframe)时极易失效。
  2. 缺乏特定站点的流程知识(Site-specific Procedural Knowledge):Agent不懂得参考“用户手册”或“攻略”,只能乱撞。
  3. 长程任务跟踪与记忆力不稳定(Unstable Memory):跨页面操作时容易产生“导航漂移”,陷入重复错误的循环。


针对这些痛点,Avenir-Web提出了一套模块化的Agent Harness框架。


由于它是Harness,而不是需要重新训练的模型,因此整个方案天然具备training-free的部署优势。


Avenir-Web 的 Agent Harness 核心设计


龙虾冲浪终于不迷路了!网页智能体新框架Avenir-Web开源即SOTA


经验模仿规划(Experience-Imitation Planning, EIP)


人类在操作复杂网站时,往往会先搜一下攻略。


EIP模块模仿了这一行为:在任务开始前,它会利用大模型的在线搜索能力,检索目标网站的帮助中心、论坛或指南,并将这些信息转化为高层级的策略路线图。


这种“先读攻略再上手”的方法,大幅减少了Agent的盲目探索时间,也规避了不可逆的导航错误。


龙虾冲浪终于不迷路了!网页智能体新框架Avenir-Web开源即SOTA


混合定位专家(Mixture of Grounding Experts, MoGE)


MoGE采用“视觉优先”的原则。


它将整个网页视为一张统一的视觉画布,直接基于坐标进行交互。


这种方式天然地解决了让DOM派 Agent头疼的嵌套iframe问题。


当视觉信息不足时,MoGE会触发语义结构推理作为兜底方案。


这种“视觉坐标+语义兜底”的混合策略,使得Agent在处理各种UI范式时都具备极强的鲁棒性。


龙虾冲浪终于不迷路了!网页智能体新框架Avenir-Web开源即SOTA


任务跟踪清单(Task-Tracking Checklist)


为了防止Agent “跑偏”,研究团队引入了结构化的任务清单。


它将复杂指令分解为2-6个可验证的原子里程碑(Milestones),并在每一步操作后利用轻量级模型(如 Qwen-3-VL-8B)实时更新状态(Pending、In Progress、Completed、Failed)。


龙虾冲浪终于不迷路了!网页智能体新框架Avenir-Web开源即SOTA


自适应记忆(Adaptive Memory)


针对上下文过长导致的幻觉问题,Avenir-Web采用了分块递归摘要(Chunked Recursive Summarization)机制。


它维持一个大小为 的滑动窗口,将历史操作提炼为抽象的记忆状态,并专门设置了“失败反思缓冲区”(Failure Reflection Buffer),确保Agent能从过去的错误中吸取教训。


龙虾冲浪终于不迷路了!网页智能体新框架Avenir-Web开源即SOTA


实验结果


研究团队在ONLINE-MIND2WEB这一包含136个真实网站、300个实时任务的严苛基准上进行了测试。


Avenir-Web(以Gemini 3 Pro为内核)取得了53.7%的成功率,相比之前的开源标杆SeeAct(30.0%)提升了整整23.7%。


龙虾冲浪终于不迷路了!网页智能体新框架Avenir-Web开源即SOTA


而且,Avenir-Web的表现超越了闭源Claude Computer Use 3.7(47.3%)和ACT-1(52.7%),开始逼近OpenAI Operator(58.3%)等顶级商业Agent的水平。


即使使用完全开源且轻量的Qwen-3-VL-8B作为内核,Avenir-Web依然取得了25.7%的成功率,已经逼近Browser Use(26.0%)与Agent-E(27.0%)等早期基于GPT-4o的重型Agent。


这也说明,作为一套无需额外训练即可接入现有模型的开源Agent Harness,Avenir-Web在轻量模型上同样具备可观的实战价值。


消融实验:谁才是关键?


研究人员通过消融实验验证了各模块的贡献度。结果显示:


  • 去除EIP(经验模仿)后,成功率从48.0%直接降至36.0%,暴跌12.0%,证明了外部知识对Web任务的至关重要性。
  • 去除MoGE(混合定位)后,成功率会从48.0%降至40.0%;去除自适应记忆后,成功率则会进一步降至42.0%甚至36.0%,说明定位与记忆模块都不可或缺。


特别是对于长程任务,递归摘要机制有效避免了上下文溢出带来的决策混乱。


龙虾冲浪终于不迷路了!网页智能体新框架Avenir-Web开源即SOTA


研究团队表示,Avenir-Web为通向具备人类级可靠性的通用数字助理迈出了坚实的一步。


目前,该项目已开源,开发者无需训练新模型,就可以把这套Agent Harness用于自动化、软件测试及智能助手等场景的进一步探索。


论文链接:https://arxiv.org/abs/2602.02468代码链接:https://github.com/Princeton-AI2-Lab/Avenir-Web


文章来自于微信公众号 "量子位",作者 "量子位"

1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
IOS下载
安卓下载
微信群