摘要
本申请属于人工智能领域,涉及一种语音生成模型的训练方法,包括:获取目标对象的参考音色频谱、音素信息以及语音频谱;基于参考音色频谱、音素信息以及语音频谱,对预设的初始语音生成模型进行训练,得到模型参数;基于模型参数,分别调整初始语音生成模型的多音色特征提取网络、音素特征提取网络、韵律特征离散化网络、时序对齐模块、注意力融合模块、语音重构解码网络的参数,以构建语音生成模型。本申请还提供一种装置、设备及介质。此外,本申请还涉及区块链技术,语音训练数据和模型参数可存储于区块链中。本申请可以实现音色和韵律信息的解耦,灵活调整音色和韵律信息,以生成具有多样性和灵活性的合成语音。
技术关键词
语音生成模型
特征提取网络
韵律特征
解码网络
音色特征
对齐模块
编码
注意力
重构
计算机可读指令
参数
瓶颈
时序
数据
基准
可读存储介质
系统为您推荐了相关专利信息
注意力机制
检测头
检测网络模型
动态
特征提取网络
多模态特征
特征提取网络
多尺度特征
无人机
深度值
特征提取网络
掌静脉图像
加权特征
图像识别方法
融合特征