全球爆火的Manus背后,一款关键的AI产品,让AI Agent像人一样操作浏览器

搜索
AI-TNT
正文
资源拓展
全球爆火的Manus背后,一款关键的AI产品,让AI Agent像人一样操作浏览器
2025-05-19 10:18

Z Highlights


  • Browser Use是一个开源产品,让AI Agent能够像真实用户一样操作浏览器,自动完成任务;它支持AI agents自动轮换,并允许用户按需运行任意数量的并行任务。目前,Browser Use的应用案例范围广泛,包括从登录自动化和数据提取到QA测试和CRM集成等。


  • 自推出以来,Browser Use发展迅速,在GitHub上获得超过60k star,是增长最快的开源人工智能项目之一。15,000多名开发人员在积极使用Browser Use,并积极在技术社区中贡献idea和解决方案。Browser Use因为Manus的出圈而被广泛传播,且其增长势头持续至今。


  • Browser Use两位创始人Magnus Müller和Gregor Zunic来自瑞士苏黎世联邦理工学院,二人在完成其数据科学硕士项目期间相识。2024年,两人一同在苏黎世联邦理工学院的学生项目之家加速器(Student Project House accelerator)中推出了Browser Use的原型。


  • 2025年3月,Browser Use在官网上宣布获得1700万种子轮融资。本轮融资由Felicis Ventures领投,A Capital、Nexus Ventures、Y Combinator、Paul Graham、Liquid2、SV Angel、Pioneer Fund 等机构跟投。


01 Manus背后“黑科技”,让Agent轻松操作浏览器


如果一个基于LLM的Agent想访问或者操作浏览器,往往面临一些挑战:


  • 网页结构频繁变化,导致自动化的脚本失效;此外,人们往往只有在任务已经失败过后才发现网页结构变化的问题,这进一步导致了开发效率低下。


  • 网站会识别并拦截机器人。为了绕过对机器人的检测,开发者需要使用不同IP地址、不断输入验证码,并让agents模拟更自然的人类操作。


  • 使用大语言模型(LLM)进行抓取时,许多人会遇到速率限制、解析错误以及API密钥管理等问题。


2025年初,随着Manus的火爆,其背后的“黑科技”Browser Use也同样引起了人们的关注。Browser Use专为解决上述痛点而设计,强调将AI agents与网页连接,实现对浏览器的自动化操作。它支持AI agents自动轮换,单次登录即可实现持久会话,并允许你按需运行任意数量的并行任务。在开源方面,Browser Use基于MIT开源许可,支持自定义,完全免费且高度灵活,用户可以自由接入任何模型。据TechCrunch报道,Browser Use是Manus用来执行各种任务的组件之一,例如点击网站菜单和填写表格。


此前,Research and Markets预测,AI agents的市场将从2024年的51亿美元增长到2030年的471亿美元;德勤数据显示,到2027年,将有一半左右的公司会部署Agents,以辅助完成不同业务。Bowser Use创始人对AI agents与浏览器自动化发展的前景同样颇为乐观,在同TechCrunch的访谈中公司创始人Zunic表示,“我们希望打造一个基础层,让所有人都能在此之上构建自己的浏览器智能体,到2025年年底,网页上agents的数量或将高于人类。”


02 准确率业界领先,流程透明可追踪


多维度功能,增长持续


Browser Use的主要功能包括:


  • 视觉+HTML信息提取:将视觉理解与HTML结构提取相结合,实现全面的网络交互。


  • 多重标签管理:Browser Use能够自动处理多个浏览器标签,以完成复杂并行的工作流程。


  • 要素追踪:通过提取点击元素的XPaths并重复精确的LLM操作,以实现稳定的自动化。


  • 自定义操作:支持用户添加个性化操作,如保存到文件、数据库操作等,同时也支持人工输入等功能。


  • 自我纠正:当面对错误时,Browser Use能够智能处理错误并且自动恢复,以实现稳健的自动流程。


  • LLM兼容:Browse Use兼容所有LangChain LLM,包括 GPT-4、Claude 3和Llama 2。


全球爆火的Manus背后,一款关键的AI产品,让AI Agent像人一样操作浏览器


图片来源:https://www.star-history.com/


自推出以来,Browser Use发展迅速,GitHub上获得超过60k star,是增长最快的开源人工智能项目之一。15,000多名开发人员在积极使用Browser Use,并积极在技术社区中贡献idea和解决方案;目前,Browser Use的应用案例范围广泛,包括从登录自动化和数据提取到QA测试和CRM集成等各层次任务。Browser Use因为Manus的出圈而被广泛传播,且其增长势头持续至今。


准确率业界领先


2024年12月,据官网消息,Browser Use在WebVoyager基准测试中的表现在业界遥遥领先,在586项不同的网络任务中取得了89.1%的成功率。


全球爆火的Manus背后,一款关键的AI产品,让AI Agent像人一样操作浏览器


图片来源:Browser Use官网


在不同领域中,Browser Use均可以出色地在浏览器上完成任务,比如,在Huggingface网站上,AI自动化完成任务的成功率可达100%,即便AI在Booking.com上自动化“表现不佳”,其成功率依然达到了80%。据官网报道,Browser Use可以涵盖多种日常任务,包括在Google Docs中编写文档、查找航班、投递简历等常见的生活场景。


全球爆火的Manus背后,一款关键的AI产品,让AI Agent像人一样操作浏览器


图片来源:Browser Use官网


回避敏感数据,操作流程透明可追溯


让AI agents自动化处理任务面临的风险之一便是如何保障数据安全,Browser Use通过防止模型看到实际密码来安全地处理敏感信息。据官方技术文档介绍,在处理密码等敏感信息时,用户可以使用sensitive_data这一参数来防止模型看到实际值,同时仍允许模型在其作中引用这些值。


此外,为了同步追踪浏览器操作的数据,Browser Use与Laminar进行了原生集成,Laminar是用于跟踪、评估和标记AI agents的开源平台,用户只需在代码项目顶部初始化Laminar,浏览器使用和会话录制都会被自动跟踪。当用户选择跟踪时,可以看到浏览器会话记录和agents的执行步骤,浏览器会话的时间轴与代理执行步骤同步,在跟踪视图中,用户还可以查看agents的当前步骤、它使用的工具以及工具的输入和输出。


03 从午餐头脑风暴到席卷全球黑科技


全球爆火的Manus背后,一款关键的AI产品,让AI Agent像人一样操作浏览器


左侧为Magnus Müller,右侧为Gregor Zunic


图片来源:Browser Use官网


Browser Use两位创始人Magnus Müller和Gregor Zunic来自瑞士苏黎世联邦理工学院,二人在其数据科学硕士项目期间相识。2024年,两人一同在苏黎世联邦理工学院的学生项目之家加速器(Student Project House accelerator)中推出了Browser Use的原型。在同TechCrunch的访谈中,Zunic回忆,“最初只是几次午饭间的随意头脑风暴,后来变成了一个挑战——我们来做个小项目,发到 Hacker News 上,看看会发生什么。”Zunic 说,“我们花了四天时间做出了一个MVP,上线之后——砰,直接登顶第一。之后的发展就像坐上了火箭一样。”


“许多AI agents依赖基于视觉的系统,并尝试通过屏幕截图浏览网站,在此过程中,往往就会出错……另外一些网站则常常会更改自己的运作方式(比如LinkedIn),因此agents也经常会失败。”Müller说到,“我们将网站转换为AI可以理解的内容,这种方法意味着我们可以以更便宜的成本一次又一次地运行相同的任务。越来越多的AI公司希望让他们的agents更优雅地与网站交互,Müller认为浏览器使用可以成为满足这一需求的“基本层”。他补充说,目前Y Combinator冬季批次中有20多家公司使用 Browser Use 来满足自己的需求。


Magnus Müller预计在2025年8月完成学业,除了关注AI与浏览器交互,他还深耕机器学习相关技术,并且在自动化与机械制造、交通管理等领域有兼职或是实习经历。2022-2024年,他在GreenWAI担任创始人兼CEO,该公司利用“浮动汽车数据”(Floating Car Data)来优化红绿灯控制,替代昂贵的传感器系统,从而大幅减少二氧化碳排放和车辆等待时间;2022-2023年,他在Aucos AG这家公司担任研究与发展领域的AI工程师,他的研究方向包括基于图像神经网络和深度强化学习的优化调度问题研究、基于Transformer的黑箱模拟与数字孪生技术、以及利用可视化模拟技术理解复杂流程等;2022年9月到12月,他还在Cambridge Care有过一段短暂的实习经历,这段实习经历中,他主要关注Temporal Fusion Transformer如何在动态知识图谱中进行时间序列预测。


全球爆火的Manus背后,一款关键的AI产品,让AI Agent像人一样操作浏览器


Magnus Müller近三年实习与工作经历


图片来源:LinkedIn


另一位创始人Gregor Zunic于2024年12月从苏黎世联邦理工大学毕业,在此之前,他专注于利用AI技术来优化不同群体的工作体验。除了今年名声鹊起的Browser Use,2023年-2024年,他曾在Spexia担任联合创始人,专注于帮助创业者解决搜索引擎优化方面的诉求;同期,他还是Profaile公司的联合创始人,该公司专注于企业家和消费者提供AI解决方案,同时还会向青年人传授技术与创业相关的知识;2022-2024年期间,他和其他朋友共同成立了一家名为Real Fake Photo的公司,产品可以实现一键把休闲风格的自拍照转化成专业的职场头像。


全球爆火的Manus背后,一款关键的AI产品,让AI Agent像人一样操作浏览器


Gregor Zunic近三年创立的公司


图片来源:LinkedIn


04 种子轮筹资1700万美元,Felicis Ventures领投


全球爆火的Manus背后,一款关键的AI产品,让AI Agent像人一样操作浏览器


图片来源:LinkedIn


Browser Use为Y Combinator2025年冬季项目之一。2025年3月,Browser Use在官网上宣布获得1700万种子轮融资。本轮融资由Felicis Ventures领投,Y Combinator、A Capital、Nexus Ventures、Paul Graham、Liquid2、SV Angel、Pioneer Fund等机构跟投。产品创始人之一Müller在接受TechCrunch访谈时补充说,当前Y Combinator冬季批次中有20多家公司使用Browser Use来满足自己的需求.


Felicis Ventures称,Browser Use正在打造AI agents基础设施中最关键的一块:网页交互能力。它通过提取HTML和页面元素,大大简化了代理与网站的交互过程,同时可以按需重复执行工作流。它支持多步骤任务、持久会话(即保留登录状态等信息),并能在网页布局变化时进行智能自我纠错,与依赖视觉识别(vision-based)的系统不同,后者每运行一次就需要耗费昂贵的计算资源,Browser Use的代理可以以确定性的方式重复执行任务——这大幅提升了可靠性、速度和效率。


Elena Chen亦有贡献

References:

https://www.ycombinator.com/companies/browser-use

https://browser-use.com/posts/sota-technical-report

https://techcrunch.com/2025/03/12/browser-use-one-of-the-tools-powering-manus-is-also-going-viral/

https://www2.deloitte.com/us/en/insights/industry/technology/technology-media-and-telecom-predictions/2025/autonomous-generative-ai-agents-still-under-development.html

https://techcrunch.com/2025/03/23/browser-use-the-tool-making-it-easier-for-ai-agents-to-navigate-websites-raises-17m/

https://docs.browser-use.com/introduction

https://docs.browser-use.com/customize/sensitive-data

https://docs.browser-use.com/development/observability


-----------END-----------


文章来自微信公众号“Z Potentials”


全球爆火的Manus背后,一款关键的AI产品,让AI Agent像人一样操作浏览器

1
OWL

【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务,堪称「云端超级打工人」而且做到了开源界GAIA性能天花板,达到了57.7%,超越Huggingface 提出的Open Deep Research 55.15%的表现。

项目地址:GitHub:https://github.com/camel-ai/owl

2
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


3
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

4
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

5
AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。

项目地址:https://github.com/InternLM/MindSearch

在线使用:https://mindsearch.openxlab.org.cn/


【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。

项目地址:https://github.com/miurla/morphic/tree/main

在线使用:https://www.morphic.sh/

IOS下载
安卓下载
微信群
沪ICP备2023015588号