音素对齐模型训练及语音合成方法、装置、设备和介质

正文

推荐专利

申请号：CN202510882019

申请日期：2025-06-27

公开号：CN120748366A

公开日期：2025-10-03

类型：发明专利

摘要

本申请涉及语音合成技术领域，尤其涉及音素对齐模型训练及语音合成方法、装置、设备和介质。方法包括：将根据语音训练数据得到频谱特征信息和文本特征信息进行卷积注意力对齐，得到第一对齐矩阵；基于第一对齐矩阵执行单调对齐搜索生成第二对齐矩阵，第二对齐矩阵为二值化硬注意力矩阵；根据第一对齐矩阵和第二对齐矩阵计算相对熵损失；根据第二对齐矩阵将文本特征信息扩展至梅尔频谱帧长度，并将扩展后的文本特征信息进行线性变换生成预测梅尔频谱；根据频谱特征信息和预测梅尔频谱计算梅尔损失；根据相对熵损失和梅尔损失训练音素对齐模型，直至满足预设收敛条件。采用本方法能够提高音素对齐准确性，进而提高语音合成准确性。

技术关键词

频谱特征文本矩阵语音注意力概率分布函数数据对齐模块模型训练装置模型训练方法信息处理模块模型训练模块数据获取模块计算机程序产品处理器时序计算机设备序列可读存储介质

系统为您推荐了相关专利信息

基于VVC视频编码特点的单帧超分辨率重建方法

特征融合方法视频编码超分辨率重建模型卷积特征提取视频超分辨率重建

一种面向GNSS相对导航的环回矢量型完好性监测方法

完好性监测方法监测器风险接收机射频

基于深度学习和软件无线电的信令通信干扰方法

地理信息数据通信干扰方法软件无线电设备策略深度神经网络

图像生成方法和装置、存储介质及电子设备

图像生成方法场景多角度透明度训练样本集

基于动态时间规整的增强动作反馈方法

动态时间规整算法反馈方法体感设备映射算法偏差

音素对齐模型训练及语音合成方法、装置、设备和介质

站点导航

APP 下载