摘要
本申请公开了一种语音模型训练方法、语音合成方法及其相关装置,训练方法包括:构建语音网络,语音网络包括第一网络分支和第二网络分支;以第一训练文本的拼音数据为输入数据,以第一训练文本的目标音频为训练目标训练第一网络分支;以参考音频的声学标记和第二训练文本为输入数据,以第二训练文本对应的目标音频为训练目标训练第二网络分支;加载训练好的第一网络分支、第二网络分支网络中各模块的网络参数到语音网络中,得到初始化后的语音网络;以声学标记、第二训练文本及其对应的拼音数据为输入数据,以第二训练文本的目标音频为训练目标训练初始化后的语音网络,得到训练好的语音模型。本申请提高了语音模型对多音字的发音准确率。
技术关键词
语音模型训练方法
拼音
音频
声码器
分支
大语言模型
网络
文本
标记
注意力
解码器
发音
序列
数据解码
模型训练装置
参数
存储程序代码
特征提取单元
系统为您推荐了相关专利信息
特征提取模型
身份验证方法
注意力机制
融合特征
指纹图像数据
数值天气预报数据
智能预测方法
风速
注意力
双向长短期记忆