如果一个基于LLM的Agent想访问或者操作浏览器,往往面临一些挑战:
2025年初,随着Manus的火爆,其背后的“黑科技”Browser Use也同样引起了人们的关注。Browser Use专为解决上述痛点而设计,强调将AI agents与网页连接,实现对浏览器的自动化操作。它支持AI agents自动轮换,单次登录即可实现持久会话,并允许你按需运行任意数量的并行任务。在开源方面,Browser Use基于MIT开源许可,支持自定义,完全免费且高度灵活,用户可以自由接入任何模型。据TechCrunch报道,Browser Use是Manus用来执行各种任务的组件之一,例如点击网站菜单和填写表格。
此前,Research and Markets预测,AI agents的市场将从2024年的51亿美元增长到2030年的471亿美元;德勤数据显示,到2027年,将有一半左右的公司会部署Agents,以辅助完成不同业务。Bowser Use创始人对AI agents与浏览器自动化发展的前景同样颇为乐观,在同TechCrunch的访谈中公司创始人Zunic表示,“我们希望打造一个基础层,让所有人都能在此之上构建自己的浏览器智能体,到2025年年底,网页上agents的数量或将高于人类。”
Browser Use的主要功能包括:
图片来源:https://www.star-history.com/
自推出以来,Browser Use发展迅速,GitHub上获得超过60k star,是增长最快的开源人工智能项目之一。15,000多名开发人员在积极使用Browser Use,并积极在技术社区中贡献idea和解决方案;目前,Browser Use的应用案例范围广泛,包括从登录自动化和数据提取到QA测试和CRM集成等各层次任务。Browser Use因为Manus的出圈而被广泛传播,且其增长势头持续至今。
2024年12月,据官网消息,Browser Use在WebVoyager基准测试中的表现在业界遥遥领先,在586项不同的网络任务中取得了89.1%的成功率。
图片来源:Browser Use官网
在不同领域中,Browser Use均可以出色地在浏览器上完成任务,比如,在Huggingface网站上,AI自动化完成任务的成功率可达100%,即便AI在Booking.com上自动化“表现不佳”,其成功率依然达到了80%。据官网报道,Browser Use可以涵盖多种日常任务,包括在Google Docs中编写文档、查找航班、投递简历等常见的生活场景。
图片来源:Browser Use官网
让AI agents自动化处理任务面临的风险之一便是如何保障数据安全,Browser Use通过防止模型看到实际密码来安全地处理敏感信息。据官方技术文档介绍,在处理密码等敏感信息时,用户可以使用sensitive_data这一参数来防止模型看到实际值,同时仍允许模型在其作中引用这些值。
此外,为了同步追踪浏览器操作的数据,Browser Use与Laminar进行了原生集成,Laminar是用于跟踪、评估和标记AI agents的开源平台,用户只需在代码项目顶部初始化Laminar,浏览器使用和会话录制都会被自动跟踪。当用户选择跟踪时,可以看到浏览器会话记录和agents的执行步骤,浏览器会话的时间轴与代理执行步骤同步,在跟踪视图中,用户还可以查看agents的当前步骤、它使用的工具以及工具的输入和输出。
左侧为Magnus Müller,右侧为Gregor Zunic
图片来源:Browser Use官网
Browser Use两位创始人Magnus Müller和Gregor Zunic来自瑞士苏黎世联邦理工学院,二人在其数据科学硕士项目期间相识。2024年,两人一同在苏黎世联邦理工学院的学生项目之家加速器(Student Project House accelerator)中推出了Browser Use的原型。在同TechCrunch的访谈中,Zunic回忆,“最初只是几次午饭间的随意头脑风暴,后来变成了一个挑战——我们来做个小项目,发到 Hacker News 上,看看会发生什么。”Zunic 说,“我们花了四天时间做出了一个MVP,上线之后——砰,直接登顶第一。之后的发展就像坐上了火箭一样。”
“许多AI agents依赖基于视觉的系统,并尝试通过屏幕截图浏览网站,在此过程中,往往就会出错……另外一些网站则常常会更改自己的运作方式(比如LinkedIn),因此agents也经常会失败。”Müller说到,“我们将网站转换为AI可以理解的内容,这种方法意味着我们可以以更便宜的成本一次又一次地运行相同的任务。越来越多的AI公司希望让他们的agents更优雅地与网站交互,Müller认为浏览器使用可以成为满足这一需求的“基本层”。他补充说,目前Y Combinator冬季批次中有20多家公司使用 Browser Use 来满足自己的需求。
Magnus Müller预计在2025年8月完成学业,除了关注AI与浏览器交互,他还深耕机器学习相关技术,并且在自动化与机械制造、交通管理等领域有兼职或是实习经历。2022-2024年,他在GreenWAI担任创始人兼CEO,该公司利用“浮动汽车数据”(Floating Car Data)来优化红绿灯控制,替代昂贵的传感器系统,从而大幅减少二氧化碳排放和车辆等待时间;2022-2023年,他在Aucos AG这家公司担任研究与发展领域的AI工程师,他的研究方向包括基于图像神经网络和深度强化学习的优化调度问题研究、基于Transformer的黑箱模拟与数字孪生技术、以及利用可视化模拟技术理解复杂流程等;2022年9月到12月,他还在Cambridge Care有过一段短暂的实习经历,这段实习经历中,他主要关注Temporal Fusion Transformer如何在动态知识图谱中进行时间序列预测。
Magnus Müller近三年实习与工作经历
图片来源:LinkedIn
另一位创始人Gregor Zunic于2024年12月从苏黎世联邦理工大学毕业,在此之前,他专注于利用AI技术来优化不同群体的工作体验。除了今年名声鹊起的Browser Use,2023年-2024年,他曾在Spexia担任联合创始人,专注于帮助创业者解决搜索引擎优化方面的诉求;同期,他还是Profaile公司的联合创始人,该公司专注于企业家和消费者提供AI解决方案,同时还会向青年人传授技术与创业相关的知识;2022-2024年期间,他和其他朋友共同成立了一家名为Real Fake Photo的公司,产品可以实现一键把休闲风格的自拍照转化成专业的职场头像。
Gregor Zunic近三年创立的公司
图片来源:LinkedIn
图片来源:LinkedIn
Browser Use为Y Combinator2025年冬季项目之一。2025年3月,Browser Use在官网上宣布获得1700万种子轮融资。本轮融资由Felicis Ventures领投,Y Combinator、A Capital、Nexus Ventures、Paul Graham、Liquid2、SV Angel、Pioneer Fund等机构跟投。产品创始人之一Müller在接受TechCrunch访谈时补充说,当前Y Combinator冬季批次中有20多家公司使用Browser Use来满足自己的需求.
Felicis Ventures称,Browser Use正在打造AI agents基础设施中最关键的一块:网页交互能力。它通过提取HTML和页面元素,大大简化了代理与网站的交互过程,同时可以按需重复执行工作流。它支持多步骤任务、持久会话(即保留登录状态等信息),并能在网页布局变化时进行智能自我纠错,与依赖视觉识别(vision-based)的系统不同,后者每运行一次就需要耗费昂贵的计算资源,Browser Use的代理可以以确定性的方式重复执行任务——这大幅提升了可靠性、速度和效率。
Elena Chen亦有贡献
References:
https://www.ycombinator.com/companies/browser-use
https://browser-use.com/posts/sota-technical-report
https://techcrunch.com/2025/03/12/browser-use-one-of-the-tools-powering-manus-is-also-going-viral/
https://www2.deloitte.com/us/en/insights/industry/technology/technology-media-and-telecom-predictions/2025/autonomous-generative-ai-agents-still-under-development.html
https://techcrunch.com/2025/03/23/browser-use-the-tool-making-it-easier-for-ai-agents-to-navigate-websites-raises-17m/
https://docs.browser-use.com/introduction
https://docs.browser-use.com/customize/sensitive-data
https://docs.browser-use.com/development/observability
-----------END-----------
文章来自微信公众号“Z Potentials”
【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务,堪称「云端超级打工人」而且做到了开源界GAIA性能天花板,达到了57.7%,超越Huggingface 提出的Open Deep Research 55.15%的表现。
项目地址:GitHub:https://github.com/camel-ai/owl
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址:https://github.com/InternLM/MindSearch
在线使用:https://mindsearch.openxlab.org.cn/
【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。
项目地址:https://github.com/miurla/morphic/tree/main
在线使用:https://www.morphic.sh/