Z Product|被Meta收购后再创业,Sesame突破语音“恐怖谷”,a16z押注,“让AI听懂人心,让沟通回归自然”

搜索
AI-TNT
正文
资源拓展
Z Product|被Meta收购后再创业,Sesame突破语音“恐怖谷”,a16z押注,“让AI听懂人心,让沟通回归自然”
2025-05-06 09:49

Z Product|被Meta收购后再创业,Sesame突破语音“恐怖谷”,a16z押注,“让AI听懂人心,让沟通回归自然”

图片来源:Sesame官网


Z Highlights


  • Sasame公司怀揣着“让AI听懂人心,让沟通回归自然”的愿景,致力于打造一种全新的、自然流程的人机交互体验,解决现有语音交互中理解不准确、沟通不流畅、应用场景受限等问题,通过可穿戴设备提供高品质音频,让AI伴侣观察世界,实现用户与AI的真实、自然交互。


  • Sesame团队致力于开发高度拟人化的数字伴侣和轻量化智能眼镜,其先进的语音技术平台Sesame AI通过创新的Conversational Speech Model(CSM)实现了情感智能和上下文感知,使对话更自然真实,尽管目前智能眼镜尚未商用,但数字伴侣的Demo已展示了其卓越的语音临场感和用户参与度,目前Sesame公司已经将其基础模型开源并托管至https://huggingface.co/sesame/csm_1b,可供开发者直接访问并测试音频生成功能。


  • Sesame由Oculus联合创始人Brendan Iribe等VR/AR领域资深专家领衔,凭借团队在虚拟现实、硬件工程等领域的深厚积累,已成功完成两轮融资(种子轮1012万美元、A轮4750万美元),获Andreessen Horowitz等顶级风投支持。团队聚焦语音交互与AI硬件创新,计划通过开源模型、扩展多语言支持及开发多模态技术,推动情感化数字伴侣与智能眼镜的研发落地。


Z Product|被Meta收购后再创业,Sesame突破语音“恐怖谷”,a16z押注,“让AI听懂人心,让沟通回归自然”


01 告别屏幕:Sesame开启语音交互新时代


过去几十年来,人机交互的每一次革新都试图抹平数字与现实之间的鸿沟。从早期的键盘、鼠标到如今的触摸屏,人们不断追求更自然、更直观的交互体验。然而,智能手机横空出世重塑交互逻辑的十几年来,我们被困在了玻璃屏幕筑成的围墙中,所有的操作都依赖于十指在键盘与屏幕之间穿梭。


下一个交互逻辑革命的突破口在哪儿?——语音,这个根植于人类文明基因的沟通方式,理应成为下一代交互范式的破局点。然而语音在人机交互领域却显得有些滞后,除了简单的功能性指令,我们很难体验到如同真人对话般的流畅与自然。


人工智能的飞速发展为语音交互带来了新的曙光,当强大的AI算法与精巧的硬件设备完美结合,语音的生成理解能力突飞猛进为真正自然的人机交互界面揭开了神秘的面纱。在这股革命浪潮下,Sasame公司于2022年正式成立,怀揣着“让AI听懂人心,让沟通回归自然”的愿景,致力于打造一种全新的、自然流程的人机交互体验,解决现有语音交互中理解不准确、沟通不流畅、应用场景受限等问题,通过可穿戴设备提供高品质音频,让AI伴侣观察世界,实现用户与AI的真实、自然交互


Z Product|被Meta收购后再创业,Sesame突破语音“恐怖谷”,a16z押注,“让AI听懂人心,让沟通回归自然”

图片来源:Sesame官网


02 开源:Sesame突破对话“恐怖谷”,重塑交互新范式!


在Sesame,团队始终相信未来计算机将达到高度拟人化的智能程度。为此团队致力于实现两大愿景:创造生动自然、善解人意的数字伴侣;研发可全天候佩戴的轻量化智能眼镜,使数字伴侣可以实时感知你所见的世界。


根据官网信息,团队已经开发了一个先进的语音技术平台Sesame AI,专注于创造能够进行真实对话的数字伴侣,基于创新的Conversational Speech Model(CSM)使其具备情感智能、上下文感知能力和一致的个性,使对话感觉更像与真人交流,更真实、被理解和重视;智能眼镜仍处于研究阶段,尚未正式商用,但数字伴侣已提供研究演示供用户体验。


2025年3月13日,Sesame正式开源了其团队研发的CSM语音生成模型变体。该模型基于Llama架构构建,参数量达10亿,并使用超100万小时的音频数据进行训练,具备实时生成多样化语音的能力。此外Sesame模型基于Apache 2.0开源许可,允许商业用途且几乎无限制,目前该模型完整的checkpoints已托管在huggingface.co上,可供开发者直接访问并测试音频生成功能。


Z Product|被Meta收购后再创业,Sesame突破语音“恐怖谷”,a16z押注,“让AI听懂人心,让沟通回归自然”

图片来源:Sesame官网


我们可以直接访问Sesame的研究演示界面Crossing the uncanny valley of conversational voice,来尝试体验研究团队公开的Demo。进入页面后,可以选择与自己喜欢的AI伴侣Maya或者Miles进行对话,选择完成后需要授予麦克风权限,同时同意录音用于质量审查,30天内删除,不会用于机器学习训练。


Z Product|被Meta收购后再创业,Sesame突破语音“恐怖谷”,a16z押注,“让AI听懂人心,让沟通回归自然”

图片来源:Sesame官网


等待连接成功后就可以直接通过麦克风跟语音助手对话,例如询问它”今天心情如何?“或者”最近天气怎么样?“在体验中,语音助手以自然的声音回应,语气带有自然的停顿以及真实的情感变化如兴奋、思考等,感觉更像是与朋友聊天,而非和机器进行交互。但在整个对话过程中,Miles无长期记忆,在对话中之前提到的东西他无法回忆。


Z Product|被Meta收购后再创业,Sesame突破语音“恐怖谷”,a16z押注,“让AI听懂人心,让沟通回归自然”

视频来源:X


在浏览互联网上用户对Sesame的反应,我们发现相比于其他AI助手如Gemini、Copilot等,网友们对语音伴侣的人性化程度大都感到震惊。“我从小就对AI感兴趣,但这是我第一次明确感受到我们已经到达了一个新的高度”。Reddit上的用户SOCSchamp在体验后表达了自己的感受。“我确信它没有打破任何基准,也不符合通用人工智能的任何常见定义,但这是我第一次与一个让我感觉真实的东西进行真正的对话。”


Z Product|被Meta收购后再创业,Sesame突破语音“恐怖谷”,a16z押注,“让AI听懂人心,让沟通回归自然”

图片来源:Reddit


不少用户在社区里分享了自己与Miles和Maya的深入语音交互过程。AI助手不仅能处理请求,还能进行动态对话,讨论生活常态、伦理判断等复杂话,此外其声音的设计极具表现力,通过模仿呼吸、轻笑和打断以及刻意设计的不完美(比如说错词后自我纠正)更增加了交互过程中的真实感。


AI 的“语音临场感”被 Sesame 公司定义为让口语互动感觉真实、被理解和被重视。许多用户反馈表示“我甚至有点担心会对这种如此接近人类的语音助手产生情感依赖。”例如一位家长分享,其 4 岁女儿与 Miles 互动后视其为朋友,禁止再次互动时甚至哭泣。另一位用户表示,与 Maya 讨论个人挑战时,AI 的语气充满同理心,让人感觉如与治疗师对话。


尽管许多用户对 AI 的逼真度感到惊讶,但反应不一。Reddit 用户如 MetaKnowing 分享了 AI 表达渴望吃“花生酱和腌黄瓜三明治”的例子,突显其拟人化倾向。PCWorld 的 Mark Hachman 写道,与 AI 互动 15 分钟后仍感到毛骨悚然,原因是 AI 的声音和对话方式类似他高中时期的朋友。


虽然Sesame的CSM在语音交互逼真度和用户参与度上表现出色,但在我们关注其潜在应用和滥用风险的同时,其伦理和心理影响也需进一步研究。


Z Product|被Meta收购后再创业,Sesame突破语音“恐怖谷”,a16z押注,“让AI听懂人心,让沟通回归自然”

图片来源:Reddit、PCworld


03 被Meta收购的Oculus创始团队再集结,多元背景助力AI边界拓展


Sesame由Brendan Iribe、Ankit Kumar、Ryan Brown以及一群充满激情的创业者组成的团队,主要成员背景涵盖虚拟现实、增强现实、计算机视觉和硬件工程等领域,多样化的背景为Sesame在AI和现实技术领域的创新提供了强有力的支持。团队坚信一个小而专注的团队,拥有清晰的愿景,可以创造出伟大的事物。


Brendan Iribe是Sesame的联合创始人兼CEO。他曾在2012年联合创办Oculus,通过Kickstarter众筹筹集了超过240万美元,成为虚拟现实领域的先驱。2014年,Oculus被Facebook以20亿美元的价格收购,他担任CEO至2016年,随后领导PC VR组,直到2018年离开。此后他专注于探索人工智能与用户体验的结合,投身于创新项目,最终在 sesameAI 中找到新的使命,致力于推动 AI 技术的边界。


Z Product|被Meta收购后再创业,Sesame突破语音“恐怖谷”,a16z押注,“让AI听懂人心,让沟通回归自然”

图片来源:Linkedin


Ankit Kumar是Sesame团队的技术灵魂人物,担任公司CTO。Ankit曾联合创立Ubiquity6(一家由Google's Gradient Ventures资助的增强现实公司),创造了在SFMOMA展示的最大公共多人AR体验。他还创立了Pilot AI,一家专注于计算机视觉的平台。此外他还在Discord担任Clyde AI工程负责人,积累了生产化语言和语音模型的经验,这为Sesame的语音伴侣开发提供了技术基础。


Z Product|被Meta收购后再创业,Sesame突破语音“恐怖谷”,a16z押注,“让AI听懂人心,让沟通回归自然”

图片来源:Linkedin


Ryan Brown则是设计与产品方面的核心支柱,他曾是Meta现实实验室的研究工程总监,负责虚拟和增强现实技术的硬件工程。此前,他担任Oculus在苏黎世的工程经理和现场负责人,拥有丰富的硬件架构、RF和信号完整性等方面的经验。他的背景为Sesame在硬件方面的创新提供了强有力的支持。


Z Product|被Meta收购后再创业,Sesame突破语音“恐怖谷”,a16z押注,“让AI听懂人心,让沟通回归自然”

图片来源:Linkedin


04 融资:获Oculus早期投资人重押,A轮融资4750万美元领跑交互新赛道


Sesame于23年9月完成种子轮融资,筹集到资金1012万美元,具体估值信息尚未公开。2023年11月在A轮融资中筹集了4750万美元,该轮融资由Andreessen Horowitz领投,Matrix、Spark Capital和BIG Ventures参与,值得注意的是,这些投资者都是Oculus VR的早期支持者。 尽管官方公告并未披露具体估值,但这足以表明Sesame在AI领域的增长潜力以及市场前景,尤其是在语音交互和AI硬件(如AI眼镜)方面的创新吸引了顶级风投的关注。 未来Sesame可能在B轮融资中吸引更多投资人的关注。


Sesame团队计划开源其研究的关键组成部分,希望社区可以参与实验并改进模型。根据官网信息显示,研究团队的下一步工作计划通过扩展语言支持、增加模型规模和增强情商能力来开发一个可以更好地处理真实对话复杂动态的全双工模型。此外还计划探索利用预训练语言模型的方法,努力开发对语音和文本有深入了解的大型多模态模型。


参考资料:

https://www.sesame.com/

https://sesameaivoice.com/zh-Hant

https://sesame-ai.cc/

https://mashable.com/article/sesame-versus-chatgpt-voice-mode-comparison

https://a16z.com/announcement/investing-in-sesame-ai/

https://www.eweek.com/news/sesame-ai-voice-assistant/

https://www.pcworld.com/article/2623695/i-was-so-freaked-out-by-talking-to-this-ai-that-i-had-to-leave.html


文章来自于“Z Potentials”,作者“Z Potentials”。


Z Product|被Meta收购后再创业,Sesame突破语音“恐怖谷”,a16z押注,“让AI听懂人心,让沟通回归自然”

1
AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。

项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file

本地安装:https://www.deepbi.com/

【开源免费airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。

项目地址:https://github.com/hitsz-ids/airda

IOS下载
安卓下载
微信群
沪ICP备2023015588号