摘要
本申请涉及语音合成技术领域,尤其涉及音素对齐模型训练及语音合成方法、装置、设备和介质。方法包括:将根据语音训练数据得到频谱特征信息和文本特征信息进行卷积注意力对齐,得到第一对齐矩阵;基于第一对齐矩阵执行单调对齐搜索生成第二对齐矩阵,第二对齐矩阵为二值化硬注意力矩阵;根据第一对齐矩阵和第二对齐矩阵计算相对熵损失;根据第二对齐矩阵将文本特征信息扩展至梅尔频谱帧长度,并将扩展后的文本特征信息进行线性变换生成预测梅尔频谱;根据频谱特征信息和预测梅尔频谱计算梅尔损失;根据相对熵损失和梅尔损失训练音素对齐模型,直至满足预设收敛条件。采用本方法能够提高音素对齐准确性,进而提高语音合成准确性。
技术关键词
频谱特征
文本
矩阵
语音
注意力
概率分布函数
数据对齐模块
模型训练装置
模型训练方法
信息处理模块
模型训练模块
数据获取模块
计算机程序产品
处理器
时序
计算机设备
序列
可读存储介质
系统为您推荐了相关专利信息
特征融合方法
视频编码
超分辨率重建模型
卷积特征提取
视频超分辨率重建
地理信息数据
通信干扰方法
软件无线电设备
策略
深度神经网络
动态时间规整算法
反馈方法
体感设备
映射算法
偏差