一种基于多任务去噪扩散隐模型的语码转换语音合成方法

正文

推荐专利

申请号：CN202410723510

申请日期：2024-06-05

公开号：CN118762686A

公开日期：2024-10-11

类型：发明专利

摘要

本发明属于信息处理技术领域，提供了一种基于多任务去噪扩散隐模型的语码转换语音合成方法，训练使用的公共数据集为Data Baker和LJSpeech；首先，我们在LJSpeech数据集上对扩散参数化进行了初步分析，根据实验结果和调参经验，我们选择了具有四个扩散步骤的模型作为我们的教师模型；然后对教师模型进行训练，在教师模型训练收敛获得VC能力后，进行VC推理生成目标说话人的非母语语音样本；本发明在基于DDIM的多任务语音合成模型中，采用了一种直接预测干净数据x0的策略，以加快复杂分布采样。然后利用N步教师行为进行知识蒸馏，生成了一个只需要N/2步的新模型CosDiff。CosDiff在保证生成的梅尔谱图的质量的同时，优化了模型参数，进一步提高了模型采样速度。

技术关键词

多任务教师语音数据信息处理技术样本代码转换训练算法训练集音频阶段蒸馏文本参数英语学生速度策略核心噪声

一种基于多任务去噪扩散隐模型的语码转换语音合成方法

站点导航

APP 下载