估值33亿美金的AI语音合成独角兽Eleven Labs是怎么跑出来的?

搜索
AI-TNT
正文
资源拓展
估值33亿美金的AI语音合成独角兽Eleven Labs是怎么跑出来的?
2025-02-17 09:29

估值33亿美金的AI语音合成独角兽Eleven Labs是怎么跑出来的?


ElevenLabs是如何在不开源的情况下成为AI语音合成领域的佼佼者的?


ElevenLabs 似乎无处不在。2025年 1 月,Lex Fridman在基辅对乌克兰总统Zelenskyy进行了长达三小时的采访,采访中使用了ElevenLabs 提供的AI英语、乌克兰语和俄语翻译,完美地保留了泽连斯基的语音和语调。这是AI消除语言障碍能力的一次引人注目的展示。


随便问一个人,他们都会说:试试ElevenLabs 吧,体验很赞。 他们的合作伙伴已渗透到各行各业。如果道德问题可能给他们的技术蒙上阴影,ElevenLabs会迅速采取行动,将潜在的负面影响转化为另一场胜利。他们似乎做什么都是对的--除了他们从不分享自己的研究成果,也不开源。


就在几周前,他们又close了一轮大额融资,以 33亿美元的估值融到了1.08亿美元--投资人都在排队入场。两个波兰人是如何把ElevenLabs 推向AI语音技术的前沿的?为什么大家都喜欢他们的产品?


以下主要介绍:


为啥想创业-波兰的配音糟透了


研究为先,直接To B


GenAIChatGPT 派上用场 - 投资人需要GenAI


非常错误的预测


超级聚焦业务战略


财务状况


市场规模


如何商业化


产品 - 对话式AI


主要竞争对手


为啥想创业--波兰的配音糟透了


Mati Staniszewski 和 Piotr Dabkowski 从少年时代起就在华沙哥白尼中学相识。这是一种相当紧密的联系,但当你对某人如此了解时,一起工作可能会很艰难。不过,这两个人还是成功地将他们对技术的共同热情转化为长期合作.


多年来,他们喜欢偶尔在周末进行的项目,总是能解决对他们来说都很重要的问题。与此同时,生活也在继续。Piotr和Mati 来到英国上大学--Mati 在伦敦帝国理工学院学习数学,而Piotr 则在牛津/剑桥大学攻读计算机科学--进一步磨练了他们的技术专长和创业本能。之后,他们在大公司工作了七年:Mati在Opera Software、BlackRock 和Palantir 工作;Piotr 在Tessian 和 Google 工作。


这条路本来可以一直走下去,但他们的一个周末在忙的项目突然揭示了一个潜在的解决方案,可以解决他们从小就有的共同苦恼:波兰电影配音的现状。外国电影通常由单调的旁白配音,听起来非常糟糕。在进行语音分析实验时,发现对语音中的发音、情感和音调的细微差别产生了兴趣。这一刻,豁然开朗--如果语音合成技术能够得到改进,捕捉到真实的情感和性格,那么它就有可能重新定义全球内容的可访问性。也许,最终能从糟糕的配音中拯救出来!


没有等太久,2022年 4 月,Mati和Piotr 将他们的周末项目推向了新的高度,创办了ElevenLabs。


以研究为先,直接To B


2022年,ElevenLabs成为一家以研究为先导的公司,其使命是使高质量的内容能够以任何语言和语音被普遍访问。Mati成为公司的CEO,Piotr 成为公司的CTO。有趣的是,公司最初运营时没有实体办公室,只有一支由 15名员工组成的精干团队。在头六个月左右的时间里,两位合伙人都专注于研究和产品开发。这一切都是关于文本到语音(TTS)


TTS是一种利用机器学习将书面文字转换成自然发音口语的系统。在与Siri 或 Alexa 交谈时,已多次体验过TTS。TTS的核心包括几个阶段:首先是文本规范化和音素转换,对输入进行标准化和编码;然后,编码器-解码器架构(通常是带有注意力的序列-序列模型)将这些语言表征转换为中间声学特征,如旋律-频谱图。最后,神经声码器(如WaveNet 或其变体)根据这些频谱图生成原始音频波形。这种端到端方法利用深度学习来捕捉前奏、语调和自然度,从而实现极具表现力和逼真度的语音合成。


ElevenLabs并不满足于Siri 和 Alexa 中的TTS。他们潜心研究,希望创造出情感上更真实的产品。最后,他们于2023 年 1 月推出了测试版产品,Mati--一家精益创业公司的CEO--开始接触潜在客户,试图在该领域证明ElevenLabs 的实力。到 2023 年 6 月,在他们的AI平台上注册的用户已超过 100 万。届时,ElevenLabs已与多家B2B 合作伙伴建立了合作关系,其中包括最大的有声读物出版商Storytel、全球顶级内容创作平台 TheSoul Publishing、Embark Studios 和 Paradox Interactive 等知名游戏开发商以及创意媒体平台 MNTN。


Mati正在建立B2B 关系,团队则集中精力开展工作:


•语音合成:专注于考虑上下文的长格式TTS,确保语音听起来自然


•声音克隆:与需要大量数据集的传统方法不同,ElevenLabs的系统只需一分钟的数据就能复制声音


•压缩:模型对语音数据的压缩率是MP3 的 100 倍,从而实现了高质量、高效率的编码


ChatGPT来了 - 投资者需要GenAI


ElevenLabs于2023 年 1 月从Credo Ventures 和英国最大的种子基金 Concept Ventures 完成了第一轮种子轮融资。


还记得那个时代吗?ChatGPT于2022 年 11 月 30日推出,投资人对任何暗示生成式AI的东西都趋之若鹜。大量资金涌入,估值飙升,突然间,每家初创公司都在用大模型"革新 "着什么。ElevenLabs的情况是,当时他们已经拥有了一个专有的AI模型,能够创造出听起来自然、有语境感知的声音,并且有了可以介绍给客户的产品。他们正式成为了一家没有任何背景的生成式AI初创公司。


非常错误的预测


我认为,在一开始,他们并没有充分认识到LLMs在生成空间掀起的革命,以及即将出现的多模态模型。2023年 4 月,在一次采访中,Mati对未来 5 年和 10年进行了预测:


5 年:AI配音质量超越人类,实现好莱坞级别的电影翻译


10 年:实时语音翻译可保留说话者的身份和情感,消除全球交流中的语言障碍


如果到5-6 月(A 轮融资时间),Mati和Piotr 重新审视了这些预测,并立即着手利用大模型提供的新功能改进他们的产品,也不会感到惊讶。

总之,ElevenLabs在时间上处于一个绝对完美的状态,作为一家成熟的生成式AI初创企业,产品已经进入测试阶段,然后执行了完美的商业战略。


超级聚焦业务战略


ElevenLabs从研究到产品化的过程是深思熟虑和战略性的,重点关注那些高质量、可扩展的语音AI能够产生最大影响的行业。他们没有追逐广泛的应用,而是将媒体(报纸、通讯)、娱乐(电影和电视)和出版(有声读物)确定为迫切需要更好的长篇语音合成的领域。据Endeavor 估算,这些行业每年在为内容制作高质量配音方面的总支出约为 60亿美元,这对这家成立两年的新公司来说是一个巨大的机遇。


这些高知名度的行业拥有固有的受众,是完美的PR放大器。当一份广受关注的时事通讯采用了你的技术,自然会将消息传播给读者--然后他们也想亲自尝试一下。前Palantir 战略家Mati从一开始就计划好了这一点:首先是B2B,然后通过有机曝光让消费者采用。


他们的目标还包括颠覆多个行业:


•教育:以多种语言大规模提供内容


•游戏:用多种语言为角色配音


•实时通信:现场翻译和语音辅助交互


通过首先专注于完善长格式语音合成,他们为AI驱动的语音转换的更广泛应用奠定了基础。ElevenLabs的与众不同之处在于,他们的战略绝不仅仅是配音或降低成本--坚持不懈地追求语音AI的全新可能性,将其作用扩展到超预期的范围。


财务情况


他们的策略收到了很好的效果。各行各业的客户纷至沓来,投资人也纷纷上门。因此,ElevenLabs得到了VC们的大力支持,他们有能力选择从谁那里拿钱。


估值33亿美金的AI语音合成独角兽Eleven Labs是怎么跑出来的?


市场规模


AI语音克隆市场在2022 年的价值为 14.5 亿美元,预计到2030 年将以 26.1% 的复合年增长率增长,其驱动力是对AI语音技术的需求。ElevenLabs 在这一市场中处于有利地位,尤其是在有声读物(50 亿美元的市场,预计到2030 年将达到 350 亿美元)和企业通信领域。此外,ElevenLabs在辅助技术(帮助患者重新获得语言表达能力)方面的工作也开拓了250 亿美元的市场,包括 ALS 支持、中风康复和老年人护理。此外,据Endeavor 估计,每年用于制作高质量内容配音的费用高达 60亿美元。无论从哪个角度看,ElevenLabs都是一个有利可图的选择。


如何商业化


ElevenLabs采用基于订阅的SaaS 模式,通过与文本到语音(TTS)的字符处理量挂钩的分级定价获得收入。


估值33亿美金的AI语音合成独角兽Eleven Labs是怎么跑出来的?



它还运营着一个语音市场,允许创作者将自己的语音资料商业化,增加额外的收入来源。这是一个有趣的产品,既解决了人们经常指责GenAI 抢走人类工作的问题,又加强了 ElevenLabs 社区的一个重要组成部分。它为配音艺术家提供了一个分享作品的空间,同时让用户可以轻松地为自己的项目发现新的配音。


收入结构


自2022 年推出以来,ElevenLabs 的收入实现了大幅增长。截至2024 年 10 月,该公司的ARR预计为8000 万美元,与年初的 2500 万美元相比大幅增长。

虽然暂时没有找到任何关于该公司是否盈利的确认信息,但他们的收入主要来自AI语音平台,超过40% 的财富 500 强企业都在使用该平台。主要企业客户包括《华盛顿邮报》和《时代》周刊等媒体公司、Paradox Interactive 等游戏工作室以及HarperCollins等出版社。


产品 - 对话式AI


ElevenLabs提供AI驱动的语音合成产品,包括文本到语音(TTS)、语音克隆和配音工具。他们的平台可让用户生成 32种语言的逼真语音,适用于有声读物、视频配音等。语音库为各种项目提供了大量语音,而配音工作室则为音频和视频翻译提供了便利,保留了原说话者的情感和语调。此外,用户还可以通过ElevenLabs Reader 应用程序收听多语种的书面内容。


在此期间,ElevenLabs还开发了各种语音合成模型,针对不同的使用情况、质量水平和性能要求进行了优化。这些模型包括"Eleven 多语种 v2",它以栩栩如生、情感丰富的 29种语言语音合成而著称;以及"Eleven Flash v2.5",它是一种快速、经济实惠的模型,支持 32种语言,具有超低延迟。


什么是ElevenLabs 的对话式AI?


为了充分利用 LLMs 的功能,ElevenLabs最近推出了对话式AI平台,旨在部署定制的交互式语音agent,以促进自然的、类似人类的交互。该平台集成了几个关键组件:


•语音转文本 (STT):将用户语音准确转录为文本


•大模型 (LLMs):处理转录文本以了解上下文并生成适当的回复


•文本到语音 (TTS):将生成的文本回复转换为自然语音


此外,平台还具有先进的轮流发言和中断处理机制,确保对话流畅、反应迅速。用户可以从庞大的语音库中进行选择,也可以根据具体需要克隆自己的语音。系统还支持通过功能调用与外部应用程序集成,实现实时信息检索和操作执行。这种灵活性允许广泛的应用,包括客户支持agents、虚拟导师、互动游戏角色等。


2023年 1 月,就在ElevenLabs 开放测试版的几天后,一些不良分子利用这项技术进行恶作剧,克隆了一些名人的声音。公司迅速做出反应,推出了 5 美元的入门级服务,正如他们所说,只是为了确保每个使用这项技术的人都能被识别出来。X(Twitter)上立即爆出骂声,预言这家初创公司会因为一个即将推出的具有相同功能的开源项目而早早夭折。现在是2025 年,虽然有 TorToise TTS 这样的开源项目,但ElevenLabs 依然生机勃勃--没有公开分享正式的研究论文,也没有开源任何技术。虽然他们的网站提到了一个专注于语音生成的"研究实验室",但并没有提供具体出版物的链接。这表明他们的研究仍在内部进行,尚未通过传统学术渠道公开。搜索技术报告也没有任何结果,这表明该公司对其技术细节保密,可能是出于竞争原因或知识产权保护。

他们对自己的技术相当保密。与此同时,他们提供了直观的用户体验,一旦尝试,就会迷上它的简洁和美观。


以 "开源"策略推动


ElevenLabs在GitHub 上维护了一个仓库,其中包含与如何实施其产品相关的开源代码和文档。这些"开源 "贡献更多的是为了推广他们的生态系统,而不是完全接受开源原则。虽然他们在GitHub 上提供了 Python API 和示例项目等开发者工具,但这些工具主要是为了更容易地与其专有模型集成。他们没有开源自己的核心语音合成技术或模型,这意味着用户仍然依赖于他们的API 和付费服务。这更像是一种战略举措--在保持核心技术封闭和商业化的同时,为开发者提供足够的工具进行构建。这是为了方便而"开放",而不是真正的开源自由精神。


估值33亿美金的AI语音合成独角兽Eleven Labs是怎么跑出来的?


主要竞争对手


ElevenLabs面临着来自AI初创企业和老牌科技巨头的竞争:


1. AI-native startups


有几家公司正在语音合成领域开辟新天地,提供与众不同的方法:


•MURF.AI,Play.ht, and WellSaid Labs –这些初创公司专注于为内容创作者提供AI生成的配音,为视频、有声读物和企业培训提供合成语音解决方案


•Descript –一款面向内容创作者的著名工具,可为播客、YouTube和专业编辑提供AI语音克隆功能


•Replica Studios –专注于游戏和身临其境的体验,为互动故事制作独特的角色配音


•Resemble AI –为个性化内容和动态对话提供实时语音克隆和合成语音


•Voicery –专注于实时语音交互,强调情感和自然语调


2. 科技大厂


AI语音领域最大的竞争对手仍然是谷歌、亚马逊和OpenAI,但它们的方法各不相同:


•谷歌云TTS 和亚马逊 Polly - 这些平台提供基于云的语音合成服务,但在将最新的AI技术整合到现有生态系统方面却一直举步维艰。它们的模型往往缺乏ElevenLabs 所提供的表现力和定制性


•OpenAI的语音模型 - 虽然OpenAI 已将语音功能集成到 ChatGPT 中,但其重点主要放在多模态AI上,而不是专门从事逼真的合成语音


关键的差异化优势: ElevenLabs通过专注于AI语音合成,实现了更快的迭代和卓越的产品市场契合度,从而超越了这些大型公司


Final Thoughts


ElevenLabs 的优势在于其超现实、情感丰富的AI语音,优于大科技公司的通用TTS 解决方案。其深思熟虑的合作和展示战略(如Lex Fridman 播客)既能增加收入,又能使公司持续成为新闻焦点,既能保持知名度,又能刺激其他初创公司的竞争对手。它的实时响应能力、用户友好界面、开发人员友好API 和无缝集成使其成为媒体、游戏和出版业的首选。包括同意机制和深度假冒检测在内的强大道德保障措施增强了信任。蓬勃发展的创作者市场增加了网络效应,而高增长的SaaS 模式则促进了收入的快速增长。他们在所有这些方面都做得如此出色,几乎令人厌烦。随着ElevenLabs 的不断扩张,在技术和市场应用方面保持领先将。




文章来自微信公众号 “ X Partners “,作者 浅浅是Cloris


估值33亿美金的AI语音合成独角兽Eleven Labs是怎么跑出来的?


1
声音克隆

【开源免费】MockingBird是一个5秒钟即可克隆你的声音的AI项目。

项目地址:https://github.com/babysor/MockingBird

2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

4
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales

IOS下载
安卓下载
微信群
沪ICP备2023015588号