AI冲浪不丝滑?
伦敦大学学院(UCL)、普林斯顿大学和爱丁堡大学的研究团队联合推出了Avenir-Web,让现有多模态模型像人类一样使用网页。

现有的Web Agent在面对复杂的网页结构(如 iframe、Shadow DOM)时,往往会陷入“定位不准”“缺乏常识”或“走着走着就忘了”的窘境。
特别是在长程任务(Long-horizon tasks)中,由于缺乏对特定网站操作流程的认知,Agent往往只能盲目探索,导致任务成功率低下。
Avenir-Web是一个不需要额外训练的新模型,本质上是一套开源的Agent Harness,也就是一个training-free的框架,在ONLINE-MIND2WEB上取得53.7%的成功率,刷新最强开源纪录。

研究团队指出,目前Web Agent在实际部署中面临三个核心瓶颈:
针对这些痛点,Avenir-Web提出了一套模块化的Agent Harness框架。
由于它是Harness,而不是需要重新训练的模型,因此整个方案天然具备training-free的部署优势。

人类在操作复杂网站时,往往会先搜一下攻略。
EIP模块模仿了这一行为:在任务开始前,它会利用大模型的在线搜索能力,检索目标网站的帮助中心、论坛或指南,并将这些信息转化为高层级的策略路线图。
这种“先读攻略再上手”的方法,大幅减少了Agent的盲目探索时间,也规避了不可逆的导航错误。

MoGE采用“视觉优先”的原则。
它将整个网页视为一张统一的视觉画布,直接基于坐标进行交互。
这种方式天然地解决了让DOM派 Agent头疼的嵌套iframe问题。
当视觉信息不足时,MoGE会触发语义结构推理作为兜底方案。
这种“视觉坐标+语义兜底”的混合策略,使得Agent在处理各种UI范式时都具备极强的鲁棒性。

为了防止Agent “跑偏”,研究团队引入了结构化的任务清单。
它将复杂指令分解为2-6个可验证的原子里程碑(Milestones),并在每一步操作后利用轻量级模型(如 Qwen-3-VL-8B)实时更新状态(Pending、In Progress、Completed、Failed)。

针对上下文过长导致的幻觉问题,Avenir-Web采用了分块递归摘要(Chunked Recursive Summarization)机制。
它维持一个大小为 的滑动窗口,将历史操作提炼为抽象的记忆状态,并专门设置了“失败反思缓冲区”(Failure Reflection Buffer),确保Agent能从过去的错误中吸取教训。

研究团队在ONLINE-MIND2WEB这一包含136个真实网站、300个实时任务的严苛基准上进行了测试。
Avenir-Web(以Gemini 3 Pro为内核)取得了53.7%的成功率,相比之前的开源标杆SeeAct(30.0%)提升了整整23.7%。

而且,Avenir-Web的表现超越了闭源Claude Computer Use 3.7(47.3%)和ACT-1(52.7%),开始逼近OpenAI Operator(58.3%)等顶级商业Agent的水平。
即使使用完全开源且轻量的Qwen-3-VL-8B作为内核,Avenir-Web依然取得了25.7%的成功率,已经逼近Browser Use(26.0%)与Agent-E(27.0%)等早期基于GPT-4o的重型Agent。
这也说明,作为一套无需额外训练即可接入现有模型的开源Agent Harness,Avenir-Web在轻量模型上同样具备可观的实战价值。
研究人员通过消融实验验证了各模块的贡献度。结果显示:
特别是对于长程任务,递归摘要机制有效避免了上下文溢出带来的决策混乱。

研究团队表示,Avenir-Web为通向具备人类级可靠性的通用数字助理迈出了坚实的一步。
目前,该项目已开源,开发者无需训练新模型,就可以把这套Agent Harness用于自动化、软件测试及智能助手等场景的进一步探索。
论文链接:https://arxiv.org/abs/2602.02468代码链接:https://github.com/Princeton-AI2-Lab/Avenir-Web
文章来自于微信公众号 "量子位",作者 "量子位"
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。
在线使用:https://ffa.chat/