摘要
本申请提供了一种基于自回归式大语言模型的零样本语音合成方法及装置,该方法包括:将参考音频的音频编码特征、参考文本的文本编码特征、目标文本的目标文本编码特征输入预先训练好的大语言模型中,得到大语言模型输出的目标序列;将目标序列输入预先训练好的扩散模型中,得到扩散模型输出的目标序列对应的目标梅尔谱;将目标梅尔谱输入预先训练好的声码器中,得到声码器输出的目标梅尔谱对应的目标音频,并将目标音频确定为参考音频和目标文本对应的语音合成结果。这样,使得用户只需在语音合成阶段添加目标发音对象的少量参考音频即可,无需使用目标发音对象的语音数据对原有的语音合成模型进行重复训练,有效地提高了零样本语音合成能力。
技术关键词
编码特征
样本
音频特征
大语言模型
语音
序列
音频匹配
文本编码器
语义特征
声码器
音频编码器
机器可读指令
矢量量化
数据
处理器
可读存储介质
注意力
系统为您推荐了相关专利信息
分类方法
特征提取器
前馈神经网络
分类系统
通用特征
图像组合
生成方法
图像编码
遥感图像特征
融合特征
卷积神经网络深度学习模型
风险预测方法
风险预测模型
图像增强
CT数据集