AI文本转语音已经进化到这种程度了吗?(⊙ˍ⊙)
莎士比亚戏剧腔、体育赛事激情解说、沉浸式有声书等诸多玩法简直轻松拿捏,而且听起来确实人机傻傻分不清楚~
就在刚刚,专攻AI语音合成的独角兽ElevenLabs发布旗下最新版TTS模型——Eleven v3。
不仅支持70多种语言(含中文),还能进行多人对话聊天,过程中每个人的情绪、语气等表现都非常生动。
官方自信表示,这是“迄今为止最具表现力的文本转语音模型”。
新模型发布不久即在AI圈引起热议,Reddit网友也齐聚一堂疯狂讨论。
RIP有声书配音。
对于英语为第二语言的人来说,根本无法区分AI和真人,唯一不足的是他们太热情了!
目前Eleven v3仍处于内部测试阶段,API即将推出,实时在线版本正在开发中。
那么,新模型具体有哪些亮点?又是如何做到的呢?
接下来我们结合官方提供的「使用指南」一步步拆解Eleven v3的亮点及背后原理。
首先需要提醒,提示词过短更容易导致输出不一致,因此官方建议文本字符最好超过250个。
一般拿到一段需要转语音的文本后,用户首先会考虑选择哪种声音。
对此,Eleven v3当前提供了“22位优秀配音老师”,他们基本上都是美国人和英国人,其音色适合不同配音场景。
同时通过上传一段参考音频,用户还能利用“stability slider(稳定性滑块)”控制生成的声音与原始参考音频的接近程度。
这里通常有三种不同程度的选项:
同一音色也支持切换成其他语言(70多种),不过从官网demo来看,目前Eleven v3更适合英语语种,转换成中文口音后听起来仍然很怪。
选好声音后,接下来的重点是如何控制情绪表达。
答案是,Eleven v3引入了通过音频标签控制情绪的功能。
这里的标签一共分为三类:
顺便一提,某些特殊标签在不同语音之间可能存在不一致的情况,官方建议使用前最好测试一下。
具体用法如下,直接在文本中的合适位置插入即可。
除了引入标签,官方表示学会正确使用标点符号也很重要。
标点符号对Eleven v3中的情绪传递有显著影响。
通常,省略号用于在语音中增加停顿和强调、大写字母用于增强语句中的强调效果、标准标点符号帮助提供更自然的语音节奏和流畅度。
最后,从单人→多人对话,用户只需从语音库中为每个说话者分配不同的语音即可。
一个完整版的多人对话提示如下(音色分配、音频标签、标点符号齐上阵):
总之,和之前的v2版本相比,v3新增了多人对话功能,还提供了更多音频标签和语言选择。
目前,一些获得内测资格的网友也第一时间分享了其体验结果。
总体来看好评居多。
先直观感受一下v2和v3之间的差别:
网友表示,v3实现了v2未能成功的情感表达。
再来感受一下切换成西班牙语:
该网友同样表示,Eleven v3的情感识别功能令人印象深刻。
换成情感大杂烩,一家生成式AI公司的副总裁表示,“v3和宣传的一样好”。
不过这里他也提到了一点小瑕疵,比如[whistle](口哨)的声音过短。
Anyway,整体而言这款产品在情感控制上已经渐趋成熟了,只不过中文效果仍比不上英文。
这不就是咱们国内语音厂商的机会所在吗(doge)~
参考链接:
[1]https://x.com/elevenlabsio/status/1930689774278570003
[2]https://elevenlabs.io/docs/best-practices/prompting/eleven-v3#targeted-niche
[3]https://www.reddit.com/r/singularity/comments/1l46lz5/introducing_eleven_v3_alpha_the_most_expressive/
文章来自公众号“量子位”,作者“一水 ”
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales