摘要
本申请提供一种零样本语音克隆方法和装置,包括利用文本编码器和说话人编码器中,得到第一声学特征和第二声学特征,利用第二声学特征、第一声学特征、目标Mel谱和训练用参考音频的Mel谱,采用流匹配方法训练细节编码器,最终得到零样本语音克隆模型,将待合成音频的参考音频和待合成音频文本输入零样本语音克隆模型中,最终得到待合成音频。本发明不需要大量的文本和语音配对数据,使用与真实语音声学特征有明确对应关系的特征作为训练集训练模型,提高了生成样本的准确度,并且还考虑了语音合成中的多个关键因素,包括文本内容、说话人特征以及语音的韵律信息,通过先进的神经网络结构和训练策略,实现了高质量的零样本语音合成。
技术关键词
语音声学特征
音频
样本
文本编码器
克隆方法
韵律特征
流匹配方法
语音信号提取
数据
噪声
神经网络结构
计算机存储介质
发音
因子
处理器
可读存储介质
系统为您推荐了相关专利信息
标志物
预测乳腺癌患者
检测乳腺癌
位点
骨髓抑制药物
协同审核方法
决策
视频特征向量
图像特征向量
梯度算法
食品安全风险
食品安全溯源
参数
样本
机器学习算法