每个有野心的AI浏览器都想成为新的操作系统

搜索
AI-TNT
正文
资源拓展
每个有野心的AI浏览器都想成为新的操作系统
2025-05-19 14:45

你多久没换过主力浏览器了?或者说,你知不知道浏览器其实是可以更换的?对许多人而言,浏览器就像电灯,每天都会打开,却又熟视无睹。


几十年来,从开先河的Mosaic到如今几乎垄断市场的Chrome,浏览器那张“脸”,几乎就没怎么变过:地址栏、书签、刷新按钮——一套雷打不动的组合。


我们早已习惯,甚至麻木。主流浏览器提供的功能,对绝大多数人来说,已经足够好,但似乎也足够“无聊”了。


然后,AI 来了。这个沉寂已久的领域开始发生变化。


AI裹挟着终端设备、操作系统、应用,乃至芯片的加速进化,浏览器也站在了变化的中心,不再甘心只是网页的容器,而是试图挣脱旧的躯壳,成为更多。


1


浏览器,正在被 AI “重新发明”


在AI这把火点燃之前,很难在浏览器市场掀起浪花。少数巨头早已划定了势力范围,用户也几乎容不得任何偏离常规的设计。


即便是那些打着“生产力提升”旗号的新产品,也大多因为一点点体验瑕疵或关键扩展的缺失,在一波尝鲜用户之后就被打回原形。但现在,游戏规则似乎变了。


一批最有野心的AI创业者正带着不同的剧本冲了进来。他们不再满足于给浏览器打个 AI 补丁,在侧边栏加个聊天框。


他们的目标更为根本——用AI彻底重塑浏览器的核心逻辑,改变我们与互联网互动的方式。


简单来说,他们想让浏览器拥有自己的“大脑”和“双手”,替你“思考”,更能替你“行动”。


首先是The Browser Company(TBC),这家公司的名字本身就带着明确的野心。


TBC的第一款产品Arc就是融入了AI功能的浏览器,而他们推出的新产品 Dia 浏览器,则抛出一个更具颠覆性的愿景:“AI 不会仅仅是一个应用或一个按钮……


它将是一个构建在浏览器之上的全新环境。” TBC认为AI将构成新的计算环境的基础,而浏览器将是其核心。看看他们想让 Dia 干的事,或许就能理解这句话的意思。


设想一下,你不再需要在不同应用和网页间手忙脚乱地切换,只需在 Dia 的地址栏用大白话下达指令


——“帮我找到上周那份关于市场趋势的报告,然后用邮件发给张三”,更进一步,“帮我把这些东西加到亚马逊购物车”,浏览器也能代劳。


理想和现实之间总是有一些距离。


Dia目前的早期版本,离他们第二支宣传片中那种能替你办事的AI似乎还有十万八千里,


有人犀利地指出它在一些产品细节上有些亮点,但“本质上就是在 Chrome 上加了一层 ChatGPT 的外衣”。


Dia浏览器并未采用 Arc 浏览器的纵向标签栏(Arc的核心创新之一)设计,而是重新使用了用户熟悉的横向标签页模式;


首页设计极其简洁,只保留了一个输入框,提供 Google 搜索和 Chat 两个选项。


每个有野心的AI浏览器都想成为新的操作系统


Personalization功能可以优化的预设Prompt,可设置你的语言偏好、表达风格,AI会智能调整以匹配。


但实际上无论你如何尝试个性化Dia,它给人的感觉依然像是ChatGPT。


每个有野心的AI浏览器都想成为新的操作系统


那个号称能查看页面上所有内容的AI侧边栏功能,实际上任何非纯文本内容,都无法读取,反而会试图编造答案。


每个有野心的AI浏览器都想成为新的操作系统


创始人Josh Miller在X上引以为傲的案例是用户可整合多个标签页的上下文执行复杂任务,


例如根据一个标签页内容撰写文档却采用另一标签页的排版风格,或将打开的标签页转换为对比表格和报告。


每个有野心的AI浏览器都想成为新的操作系统


Josh Miller称之为极致上下文建构(tripling-down on context),这也是它试图区别于其他 AI 产品(比如 ChatGPT、Copilot、Perplexity)的关键。


他认为AI 在浏览器里的关键不是模型多强,而是有没有完整的上下文能喂给它。


每个有野心的AI浏览器都想成为新的操作系统


从Josh Miller透露的产品规划来看,Dia想做的是一个会成长的AI交互层,它学习你的习惯、自动适配你的任务。


每个有野心的AI浏览器都想成为新的操作系统


如果说Dia和它背后的公司还披着一些“文艺”的外衣,那Fellou就显得更“工科直男”一些,


这两个产品在理念上有些相似之处,而Fellou在产品实现上甚至更进一步,打出“世界首款代理式浏览器 (Agentic Browser)”旗号。


它的核心概念是“代理式深度行动 (Agentic Deep Action)”。这话听起来比 Dia 的“全新环境”更“技术流”一些,但内核如出一辙:


让浏览器更主动、更深度地介入你的工作流。


Fellou声称,它的AI Agent不仅能帮你处理公共领域的开放数据,还能深入你的“私有领地”(比如本地文件或需要登录的平台),进行复杂的研究和信息编译。


更诱人的一点是,这些任务可以在一个“影子窗口”中悄无声息地执行,不打扰你正在进行的“主要工作”——当然,也可能不打扰你“摸鱼”。


例如,我们让Fellou根据需求去电商上找一些商品推荐的选项,它的操作步骤和常见Agent类产品一样,


区别是会在本地的浏览器中执行,因此可以让用户登陆相应的网站账号,从而进行跨平台检索,最后会输出一份可视化呈现的报告。


每个有野心的AI浏览器都想成为新的操作系统


Fellou还可以自动化执行一些任务,任务自动化:能够自动执行重复性或复杂的在线任务,比如打开亚马逊将商品添加到购物车、会议预订等。


我们让Fellou打开小红书,给硅星人最新的一条笔记留一条评论:


每个有野心的AI浏览器都想成为新的操作系统


Fellou成功的执行了任务,全程的操作过程如下:


每个有野心的AI浏览器都想成为新的操作系统


不过从用户的反馈整体看来,其自动化任务执行的稳定性有待提升,比如即使同样的任务,也不能保证每次都能复现,


复杂任务可能出现中断或错误,由于环境是在本地,处理大量标签页时,可能出现卡顿或响应迟缓的情况。


每个有野心的AI浏览器都想成为新的操作系统


Perplexity也是试图革新浏览器的重磅玩家,正在推进其浏览器产品Comet的开发,Perplexity2025年2月宣布正在开发Comet,5月中旬进入封闭Beta测试阶段。


从有限的测试者反馈看,Comet支持从Google Chrome导入书签、密码等数据。


测试版中,用户可通过“Comet助手”下达指令,实现关闭/打开标签页、分组标签页、关闭重复标签、查看购物车、帮助查找未回复邮件等功能。


每个有野心的AI浏览器都想成为新的操作系统


CometBeta版截图


Comet会根据用户的浏览历史和打开的标签页(所有数据均本地存储,不用于模型训练)提供个性化响应。


它还将Perplexity的核心搜索功能集成到侧边栏中,可在所有网站上访问,使用户无需切换标签页即可查询、总结或探索内容。


此外,Comet的电子邮件邀请函中强调了诸如分析收件箱、准备面试以及生成会议记录等使用场景——这些功能旨在“每周节省数小时”。


当然,也有用户对Comet提出疑问,质疑其开发独立浏览器的必要性,


如果只是为了集成那些AI功能,其实完全可以在现有Perplexity网页或插件上实现,无需另做一个浏览器 。


整体来看,Comet的愿景可总结为短期内稳步推出产品、完善AI浏览体验,长期则瞄准打造“浏览器即操作系统”的生态。


在Srinivas看来,回答问题的AI能力终将成为各家必备的基础功能(commodity),真正的竞争优势将来自于帮助用户执行操作。


他明确表示,开发Comet浏览器是公司长远战略的重要一步,其最终愿景是构建一个类似 Windows、Mac或Android/iOS的全能AI操作系统,


“我们的计划是开发一个操作系统,让用户几乎可以在其中完成一切”。


值得注意的是,Perplexity 已公开表示将利用这些丰富的用户数据来构建用户画像,并用于推出高度定制化的广告和服务 。


Srinivas 在采访中坦言,这是他们打造浏览器的原因之一:“我们想获取应用之外的所有数据来更好地理解你……


例如你购买了什么、去哪些酒店、浏览哪些内容,这些信息能更全面地告诉我们你的情况” ,这引发了不少网友对隐私的顾虑。


显然,从惊艳的概念到无缝的体验,Dia、Fellou和Comet们还有很长的路要走,不过他们展现出的核心理念本身,就已经捅破了传统浏览器功能的天花板。


每个有野心的AI浏览器都想成为新的操作系统


1


巨头在行动


眼看AI创业者试图重新发明浏览器这个古老物种,巨头们自然也不会坐视不理,只不过巨头们的动作显得更为复杂。


微软算是其中动作最快的一个。Copilot全面植入Edge浏览器,目标清晰明确,将Edge打造为为每个人服务的AI伴侣。


无论是帮你快速总结冗长的网页内容,辅助你润色措辞生硬的邮件,还是根据你的浏览习惯提供个性化的信息流,Copilot都在努力让Edge显得更智能、更贴心。


每个有野心的AI浏览器都想成为新的操作系统


这是一种典型的“微软式”打法——利用庞大的生态系统为 Edge 导流并提供整合体验,通过AI增强现有功能,提升用户粘性。


与其说是创造一个全新的浏览器物种,不如说是给成熟的Edge浏览器装上一个更强大的AI引擎。


相较之下,谷歌Chrome的AI化上则显得更加谨慎。


Chrome的体量实在太大了,任何激进的改动都可能牵一发而动全身,影响数以十亿计的用户乃至其核心商业模式。


因此,谷歌更多是将AI能力以一种更“润物细无声”的方式融入搜索、广告等核心业务,浏览器本身的AI功能迭代则相对谨慎。


然而,这并不意味着谷歌对AI浏览器的未来掉以轻心。


一个颇具玩味的细节是,在美国司法部针对谷歌的反垄断案中,当“剥离Chrome”作为一种可能的处罚被提出时,几乎所有你能想到的科技巨头


——包括OpenAI——都毫不掩饰地表达了对Chrome的“浓厚兴趣”。这赤裸裸地揭示了浏览器作为互联网核心入口的战略价值,在AI时代只增不减。


谁掌握了浏览器,谁就掌握了塑造未来互联网体验的主导权。


而作为当前AI技术变革的头把交椅,OpenAI的思路则更加“釜底抽薪”。


尽管有传闻称其对收购 Chrome抱有幻想,但OpenAI的核心战略似乎并非从头再造一款浏览器,


而是要通过其日益强大的基础模型和正在研发的AI Agent产品Operator,Operator通过在OpenAI的服务器上操作远程浏览器来完成任务,


它更像是Siri的未来形态,或者说是数字化“管家”。


梳理各方的路径可见,但还需要一些突破;


微软谷歌这样的巨头则希望通过AI强化现有生态和用户体验,创业公司们在用AI的理念尝试从根本上颠覆浏览器,最终瞄准的都是深层次的交互革命。


每个有野心的AI浏览器都想成为新的操作系统


1


“下一代操作系统”的阳谋


要理解为何这些 AI 浏览器创业者和科技巨头都将目光投向“操作系统”这一宏大目标,我们可以回到浏览器的诞生初衷。


1989 年,蒂姆·伯纳斯-李爵士创建万维网(WWW),其核心是为了满足科学家、高校及研究机构间便捷共享信息的需求。


浏览器的出现正是为了简化这一过程,因此,它最初是围绕“文档”设计的,将互联网视为一个巨大的文档库,而浏览器是访问这些文档的工具。


这一核心理念至今未变。


然而,随着生成式 AI 的兴起,我们开始看到网页内容本身的“原子化”。


AI 可以将信息从固定的文本、图片、视频等文档格式中解构出来,按需进行分析、总结、提炼,并重新组合成个性化的答案或内容。


这本身就在削弱万维网最初“链接文档”的设想及其构建方式。


如果信息不再以稳定的、可供链接的“文档”作为基本单元存在,而是以更碎片化、更动态的方式呈现,那么浏览器——这个传统上用来访问文档的工具


——又该如何实现它一直以来的核心功能呢?


曾在Netscape任职的Flipboard创始人兼CEO Mike McCue认为,正如浏览器为适应移动优先的世界而“扭曲”成了某种应用形态一样,


以个性化、交互性、对话为核心的人工智能系统,将迫使浏览器再次进化。


AI正在重塑我们接收和处理信息的方式,随之变化的必然是承载信息的“容器”,浏览器本身、其底层的协议、以及我们与之交互的界面,它们都将发生演变。


有野心的创业者们都敏锐地捕捉到了这一趋势,并试图通过 AI 浏览器来引领这场变革。


他们看到了传统浏览器在处理日益复杂和动态的信息、以及用户跨应用任务需求方面的局限性,


并试图通过 AI Agent、深度上下文理解和任务自动化来弥补这些不足,


将浏览器从一个静态的信息展示工具转变为一个动态的、智能的个人数字助理平台,这与操作系统的功能定位高度契合。


不过,这些新产品面对的挑战也是巨大的。


目前许多 AI 浏览器产品,在核心技术层面(至少在用户可感知的层面)显得高度同质化,很大程度上依赖于现有的基础模型能力。


Sam Altman说,大学生们倾向于将AI视为一种新型的“操作系统”。


而这种“操作系统”式的使用方式,一个深度个性化、无处不在、能主动理解并协助你完成各种任务AI助手,正是OpenAI努力的方向


——OpenAI也不会放过这个掌握新时代的入口的机会。


Josh Miller 也表示,“如果 Sam Altman 来模仿,我们再想应对办法。”


这些创业者们已经意识到,自己面对的不只是Chrome这些浏览器,而是同样怀揣着“下一代操作系统”野心的OpenAI这样的巨头们。


对Dia,Fellou和Comet们来说,机会的确是巨大的,提出概念来卡住一个位置之后,接下来的竞争只会更加激烈。


文章来自于微信公众号 “硅星人Pro”,作者 :周一笑


每个有野心的AI浏览器都想成为新的操作系统

1
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。

项目地址:https://github.com/InternLM/MindSearch

在线使用:https://mindsearch.openxlab.org.cn/


【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。

项目地址:https://github.com/miurla/morphic/tree/main

在线使用:https://www.morphic.sh/

4
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

IOS下载
安卓下载
微信群
沪ICP备2023015588号