仅听几秒人声,即可完成逼真复刻,而且是对话式语音。
这就是MoonCast,一款革新性的对话式语音合成模型,目前已开源。
MoonCast 的“人味”播客效果如何?立即试听以下示例音频,让耳朵告诉你答案。
(注:本文使用的所有音频仅用于展示,不代表任何真实事件或观点。禁止商用。)
中文播客示例:
输入知识源:经典经济学论文 (PDF 链接: https://gwern.net/doc/statistics/decision/1951-nash.pdf)
英文播客示例:
输入知识源:诺贝尔物理学奖新闻稿 (URL 链接: https://www.nobelprize.org/prizes/physics/2024/press-release/)
生成一段地道的相声,完全就是郭德纲于谦那味儿啊。
(注:本文使用的所有音频仅用于展示,不代表任何真实事件或观点。禁止商用。)
它专为高质量播客内容创作量身打造,旨在将文档转化为引人入胜的播客音频。这些对话无论是文本内容还是说话人音色,MoonCast在训练时都从未见过。
这得益于强大的 zero-shot text-to-speech (零样本语音合成) 技术,能仅凭数秒的参考音频,便能合成如此逼真的语音。
接下来,就让我们一同深入 MoonCast 的技术内核,探寻其"声"动人心的奥秘。
近年来,AI 语音合成技术可谓突飞猛进,在短句、单人语音的合成上,已经能做到以假乱真的程度。然而,当 AI 想要挑战更复杂的语音场景,比如我们日常听的播客时,就立刻遇到了”拦路虎”。
想象一下,优秀的播客往往是时长很长的,至少也需要几分钟甚至几十分钟;而且为了节目效果,通常会有两位甚至多位主持人互相交流、你来我往;更重要的是,播客的魅力就在于那种自然、随性、口语化的风格,就像朋友聊天一样,充满了即兴发挥和真实感。
反观现有的语音合成技术,它们大多还是在相对正式、书面化的单人场景下训练出来的,在面对播客这种自然、口语化的多人对话场景,就显得有些力不从心了,难以捕捉到那种“人味”。
MoonCast团队旨在解决这些难题,在剧本生成和音频建模两方面创新突破,打造更自然、高质量的 AI 播客系统。流程如下图所示。
△MoonCast流程图
一个好的播客, 离不开精心打磨的剧本。MoonCast首先就是要让 AI 像顶尖播客编剧那样, 创作出既有深度、 又有趣味的高质量剧本。那么,MoonCast是如何做到的呢?答案是:借助LLM (大型语言模型) 的强大能力。
首先, 利用 LLM理解能力,提炼信息生成摘要, 确保剧本言之有物:
接着, 利用 LLM生成能力,基于摘要创作剧本, 让剧本更具“人味”:
这些看似微小的细节, 就像是剧本的调味剂, 能够使对话更自然真实,让AI 播客瞬间鲜活起来。
规模化是提升 AI 播客自然度的基石。为了让 AI 播客更自然、 更连贯, MoonCast 团队采用了全面规模化的策略, 从模型参数、训练数据到上下文长度, 都进行了scaling,力求突破现有技术的限制。
此外,MoonCast团队深知高质量的 AI 播客模型不是一蹴而就的。因此他们借鉴人类学习知识的规律, 将整个模型训练过程分为了三个阶段。就像学生一样,先打好基础, 再逐步提高难度, 最终才能融会贯通, 掌握高超的播客生成技巧:
此外,为了提升长音频生成的效率和质量, MoonCast还创新性地采用了短段级别自回归的音频重建技术,以允许基于已重建内容,流式重建当前短段音频,提升音频重建连贯性。
实验证明,MoonCast性能较单句合成模型提升显著,尤其在中英双语长对话播客的自然度和连贯性方面表现惊艳,更接近真人播音效果!
△MoonCast中文播客性能评估
△MoonCast英文播客性能评估
为了进一步揭示“人味”的奥秘,MoonCast还设计了消融实验,证明剧本中那些看似微小的口语细节,竟对有”人味”的音频的生成起着至关重要的作用。
△剧本口语细节对音频生成效果的影响。
最后,如果您想尝试该项目,可戳下方链接了解更多:
GitHub:https://github.com/jzq2000/MoonCast
论文:https://arxiv.org/pdf/2503.14345
Demo:https://mooncastdemo.github.io/
文章来自于“量子位”,作者“Zeqian Ju”。