你多久没换过主力浏览器了?或者说,你知不知道浏览器其实是可以更换的?对许多人而言,浏览器就像电灯,每天都会打开,却又熟视无睹。
几十年来,从开先河的Mosaic到如今几乎垄断市场的Chrome,浏览器那张“脸”,几乎就没怎么变过:地址栏、书签、刷新按钮——一套雷打不动的组合。
我们早已习惯,甚至麻木。主流浏览器提供的功能,对绝大多数人来说,已经足够好,但似乎也足够“无聊”了。
然后,AI 来了。这个沉寂已久的领域开始发生变化。
AI裹挟着终端设备、操作系统、应用,乃至芯片的加速进化,浏览器也站在了变化的中心,不再甘心只是网页的容器,而是试图挣脱旧的躯壳,成为更多。
在AI这把火点燃之前,很难在浏览器市场掀起浪花。少数巨头早已划定了势力范围,用户也几乎容不得任何偏离常规的设计。
即便是那些打着“生产力提升”旗号的新产品,也大多因为一点点体验瑕疵或关键扩展的缺失,在一波尝鲜用户之后就被打回原形。但现在,游戏规则似乎变了。
一批最有野心的AI创业者正带着不同的剧本冲了进来。他们不再满足于给浏览器打个 AI 补丁,在侧边栏加个聊天框。
他们的目标更为根本——用AI彻底重塑浏览器的核心逻辑,改变我们与互联网互动的方式。
简单来说,他们想让浏览器拥有自己的“大脑”和“双手”,替你“思考”,更能替你“行动”。
首先是The Browser Company(TBC),这家公司的名字本身就带着明确的野心。
TBC的第一款产品Arc就是融入了AI功能的浏览器,而他们推出的新产品 Dia 浏览器,则抛出一个更具颠覆性的愿景:“AI 不会仅仅是一个应用或一个按钮……
它将是一个构建在浏览器之上的全新环境。” TBC认为AI将构成新的计算环境的基础,而浏览器将是其核心。看看他们想让 Dia 干的事,或许就能理解这句话的意思。
设想一下,你不再需要在不同应用和网页间手忙脚乱地切换,只需在 Dia 的地址栏用大白话下达指令
——“帮我找到上周那份关于市场趋势的报告,然后用邮件发给张三”,更进一步,“帮我把这些东西加到亚马逊购物车”,浏览器也能代劳。
理想和现实之间总是有一些距离。
Dia目前的早期版本,离他们第二支宣传片中那种能替你办事的AI似乎还有十万八千里,
有人犀利地指出它在一些产品细节上有些亮点,但“本质上就是在 Chrome 上加了一层 ChatGPT 的外衣”。
Dia浏览器并未采用 Arc 浏览器的纵向标签栏(Arc的核心创新之一)设计,而是重新使用了用户熟悉的横向标签页模式;
首页设计极其简洁,只保留了一个输入框,提供 Google 搜索和 Chat 两个选项。
Personalization功能可以优化的预设Prompt,可设置你的语言偏好、表达风格,AI会智能调整以匹配。
但实际上无论你如何尝试个性化Dia,它给人的感觉依然像是ChatGPT。
那个号称能查看页面上所有内容的AI侧边栏功能,实际上任何非纯文本内容,都无法读取,反而会试图编造答案。
创始人Josh Miller在X上引以为傲的案例是用户可整合多个标签页的上下文执行复杂任务,
例如根据一个标签页内容撰写文档却采用另一标签页的排版风格,或将打开的标签页转换为对比表格和报告。
Josh Miller称之为极致上下文建构(tripling-down on context),这也是它试图区别于其他 AI 产品(比如 ChatGPT、Copilot、Perplexity)的关键。
他认为AI 在浏览器里的关键不是模型多强,而是有没有完整的上下文能喂给它。
从Josh Miller透露的产品规划来看,Dia想做的是一个会成长的AI交互层,它学习你的习惯、自动适配你的任务。
如果说Dia和它背后的公司还披着一些“文艺”的外衣,那Fellou就显得更“工科直男”一些,
这两个产品在理念上有些相似之处,而Fellou在产品实现上甚至更进一步,打出“世界首款代理式浏览器 (Agentic Browser)”旗号。
它的核心概念是“代理式深度行动 (Agentic Deep Action)”。这话听起来比 Dia 的“全新环境”更“技术流”一些,但内核如出一辙:
让浏览器更主动、更深度地介入你的工作流。
Fellou声称,它的AI Agent不仅能帮你处理公共领域的开放数据,还能深入你的“私有领地”(比如本地文件或需要登录的平台),进行复杂的研究和信息编译。
更诱人的一点是,这些任务可以在一个“影子窗口”中悄无声息地执行,不打扰你正在进行的“主要工作”——当然,也可能不打扰你“摸鱼”。
例如,我们让Fellou根据需求去电商上找一些商品推荐的选项,它的操作步骤和常见Agent类产品一样,
区别是会在本地的浏览器中执行,因此可以让用户登陆相应的网站账号,从而进行跨平台检索,最后会输出一份可视化呈现的报告。
Fellou还可以自动化执行一些任务,任务自动化:能够自动执行重复性或复杂的在线任务,比如打开亚马逊将商品添加到购物车、会议预订等。
我们让Fellou打开小红书,给硅星人最新的一条笔记留一条评论:
Fellou成功的执行了任务,全程的操作过程如下:
不过从用户的反馈整体看来,其自动化任务执行的稳定性有待提升,比如即使同样的任务,也不能保证每次都能复现,
复杂任务可能出现中断或错误,由于环境是在本地,处理大量标签页时,可能出现卡顿或响应迟缓的情况。
Perplexity也是试图革新浏览器的重磅玩家,正在推进其浏览器产品Comet的开发,Perplexity2025年2月宣布正在开发Comet,5月中旬进入封闭Beta测试阶段。
从有限的测试者反馈看,Comet支持从Google Chrome导入书签、密码等数据。
测试版中,用户可通过“Comet助手”下达指令,实现关闭/打开标签页、分组标签页、关闭重复标签、查看购物车、帮助查找未回复邮件等功能。
CometBeta版截图
Comet会根据用户的浏览历史和打开的标签页(所有数据均本地存储,不用于模型训练)提供个性化响应。
它还将Perplexity的核心搜索功能集成到侧边栏中,可在所有网站上访问,使用户无需切换标签页即可查询、总结或探索内容。
此外,Comet的电子邮件邀请函中强调了诸如分析收件箱、准备面试以及生成会议记录等使用场景——这些功能旨在“每周节省数小时”。
当然,也有用户对Comet提出疑问,质疑其开发独立浏览器的必要性,
如果只是为了集成那些AI功能,其实完全可以在现有Perplexity网页或插件上实现,无需另做一个浏览器 。
整体来看,Comet的愿景可总结为短期内稳步推出产品、完善AI浏览体验,长期则瞄准打造“浏览器即操作系统”的生态。
在Srinivas看来,回答问题的AI能力终将成为各家必备的基础功能(commodity),真正的竞争优势将来自于帮助用户执行操作。
他明确表示,开发Comet浏览器是公司长远战略的重要一步,其最终愿景是构建一个类似 Windows、Mac或Android/iOS的全能AI操作系统,
“我们的计划是开发一个操作系统,让用户几乎可以在其中完成一切”。
值得注意的是,Perplexity 已公开表示将利用这些丰富的用户数据来构建用户画像,并用于推出高度定制化的广告和服务 。
Srinivas 在采访中坦言,这是他们打造浏览器的原因之一:“我们想获取应用之外的所有数据来更好地理解你……
例如你购买了什么、去哪些酒店、浏览哪些内容,这些信息能更全面地告诉我们你的情况” ,这引发了不少网友对隐私的顾虑。
显然,从惊艳的概念到无缝的体验,Dia、Fellou和Comet们还有很长的路要走,不过他们展现出的核心理念本身,就已经捅破了传统浏览器功能的天花板。
1
巨头在行动
眼看AI创业者试图重新发明浏览器这个古老物种,巨头们自然也不会坐视不理,只不过巨头们的动作显得更为复杂。
微软算是其中动作最快的一个。Copilot全面植入Edge浏览器,目标清晰明确,将Edge打造为为每个人服务的AI伴侣。
无论是帮你快速总结冗长的网页内容,辅助你润色措辞生硬的邮件,还是根据你的浏览习惯提供个性化的信息流,Copilot都在努力让Edge显得更智能、更贴心。
这是一种典型的“微软式”打法——利用庞大的生态系统为 Edge 导流并提供整合体验,通过AI增强现有功能,提升用户粘性。
与其说是创造一个全新的浏览器物种,不如说是给成熟的Edge浏览器装上一个更强大的AI引擎。
相较之下,谷歌Chrome的AI化上则显得更加谨慎。
Chrome的体量实在太大了,任何激进的改动都可能牵一发而动全身,影响数以十亿计的用户乃至其核心商业模式。
因此,谷歌更多是将AI能力以一种更“润物细无声”的方式融入搜索、广告等核心业务,浏览器本身的AI功能迭代则相对谨慎。
然而,这并不意味着谷歌对AI浏览器的未来掉以轻心。
一个颇具玩味的细节是,在美国司法部针对谷歌的反垄断案中,当“剥离Chrome”作为一种可能的处罚被提出时,几乎所有你能想到的科技巨头
——包括OpenAI——都毫不掩饰地表达了对Chrome的“浓厚兴趣”。这赤裸裸地揭示了浏览器作为互联网核心入口的战略价值,在AI时代只增不减。
谁掌握了浏览器,谁就掌握了塑造未来互联网体验的主导权。
而作为当前AI技术变革的头把交椅,OpenAI的思路则更加“釜底抽薪”。
尽管有传闻称其对收购 Chrome抱有幻想,但OpenAI的核心战略似乎并非从头再造一款浏览器,
而是要通过其日益强大的基础模型和正在研发的AI Agent产品Operator,Operator通过在OpenAI的服务器上操作远程浏览器来完成任务,
它更像是Siri的未来形态,或者说是数字化“管家”。
梳理各方的路径可见,但还需要一些突破;
微软谷歌这样的巨头则希望通过AI强化现有生态和用户体验,创业公司们在用AI的理念尝试从根本上颠覆浏览器,最终瞄准的都是深层次的交互革命。
1
“下一代操作系统”的阳谋
要理解为何这些 AI 浏览器创业者和科技巨头都将目光投向“操作系统”这一宏大目标,我们可以回到浏览器的诞生初衷。
1989 年,蒂姆·伯纳斯-李爵士创建万维网(WWW),其核心是为了满足科学家、高校及研究机构间便捷共享信息的需求。
浏览器的出现正是为了简化这一过程,因此,它最初是围绕“文档”设计的,将互联网视为一个巨大的文档库,而浏览器是访问这些文档的工具。
这一核心理念至今未变。
然而,随着生成式 AI 的兴起,我们开始看到网页内容本身的“原子化”。
AI 可以将信息从固定的文本、图片、视频等文档格式中解构出来,按需进行分析、总结、提炼,并重新组合成个性化的答案或内容。
这本身就在削弱万维网最初“链接文档”的设想及其构建方式。
如果信息不再以稳定的、可供链接的“文档”作为基本单元存在,而是以更碎片化、更动态的方式呈现,那么浏览器——这个传统上用来访问文档的工具
——又该如何实现它一直以来的核心功能呢?
曾在Netscape任职的Flipboard创始人兼CEO Mike McCue认为,正如浏览器为适应移动优先的世界而“扭曲”成了某种应用形态一样,
以个性化、交互性、对话为核心的人工智能系统,将迫使浏览器再次进化。
AI正在重塑我们接收和处理信息的方式,随之变化的必然是承载信息的“容器”,浏览器本身、其底层的协议、以及我们与之交互的界面,它们都将发生演变。
有野心的创业者们都敏锐地捕捉到了这一趋势,并试图通过 AI 浏览器来引领这场变革。
他们看到了传统浏览器在处理日益复杂和动态的信息、以及用户跨应用任务需求方面的局限性,
并试图通过 AI Agent、深度上下文理解和任务自动化来弥补这些不足,
将浏览器从一个静态的信息展示工具转变为一个动态的、智能的个人数字助理平台,这与操作系统的功能定位高度契合。
不过,这些新产品面对的挑战也是巨大的。
目前许多 AI 浏览器产品,在核心技术层面(至少在用户可感知的层面)显得高度同质化,很大程度上依赖于现有的基础模型能力。
Sam Altman说,大学生们倾向于将AI视为一种新型的“操作系统”。
而这种“操作系统”式的使用方式,一个深度个性化、无处不在、能主动理解并协助你完成各种任务AI助手,正是OpenAI努力的方向
——OpenAI也不会放过这个掌握新时代的入口的机会。
Josh Miller 也表示,“如果 Sam Altman 来模仿,我们再想应对办法。”
这些创业者们已经意识到,自己面对的不只是Chrome这些浏览器,而是同样怀揣着“下一代操作系统”野心的OpenAI这样的巨头们。
对Dia,Fellou和Comet们来说,机会的确是巨大的,提出概念来卡住一个位置之后,接下来的竞争只会更加激烈。
文章来自于微信公众号 “硅星人Pro”,作者 :周一笑
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址:https://github.com/InternLM/MindSearch
在线使用:https://mindsearch.openxlab.org.cn/
【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。
项目地址:https://github.com/miurla/morphic/tree/main
在线使用:https://www.morphic.sh/
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0