一种基于多任务去噪扩散隐模型的语码转换语音合成方法

AITNT
正文
推荐专利
一种基于多任务去噪扩散隐模型的语码转换语音合成方法
申请号:CN202410723510
申请日期:2024-06-05
公开号:CN118762686A
公开日期:2024-10-11
类型:发明专利
摘要
本发明属于信息处理技术领域,提供了一种基于多任务去噪扩散隐模型的语码转换语音合成方法,训练使用的公共数据集为Data Baker和LJSpeech;首先,我们在LJSpeech数据集上对扩散参数化进行了初步分析,根据实验结果和调参经验,我们选择了具有四个扩散步骤的模型作为我们的教师模型;然后对教师模型进行训练,在教师模型训练收敛获得VC能力后,进行VC推理生成目标说话人的非母语语音样本;本发明在基于DDIM的多任务语音合成模型中,采用了一种直接预测干净数据x0的策略,以加快复杂分布采样。然后利用N步教师行为进行知识蒸馏,生成了一个只需要N/2步的新模型CosDiff。CosDiff在保证生成的梅尔谱图的质量的同时,优化了模型参数,进一步提高了模型采样速度。
技术关键词
多任务 教师 语音 数据 信息处理技术 样本 代码转换 训练算法 训练集 音频 阶段 蒸馏 文本 参数 英语 学生 速度 策略 核心 噪声
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号