音素对齐模型训练及语音合成方法、装置、设备和介质

AITNT
正文
推荐专利
音素对齐模型训练及语音合成方法、装置、设备和介质
申请号:CN202510882019
申请日期:2025-06-27
公开号:CN120748366A
公开日期:2025-10-03
类型:发明专利
摘要
本申请涉及语音合成技术领域,尤其涉及音素对齐模型训练及语音合成方法、装置、设备和介质。方法包括:将根据语音训练数据得到频谱特征信息和文本特征信息进行卷积注意力对齐,得到第一对齐矩阵;基于第一对齐矩阵执行单调对齐搜索生成第二对齐矩阵,第二对齐矩阵为二值化硬注意力矩阵;根据第一对齐矩阵和第二对齐矩阵计算相对熵损失;根据第二对齐矩阵将文本特征信息扩展至梅尔频谱帧长度,并将扩展后的文本特征信息进行线性变换生成预测梅尔频谱;根据频谱特征信息和预测梅尔频谱计算梅尔损失;根据相对熵损失和梅尔损失训练音素对齐模型,直至满足预设收敛条件。采用本方法能够提高音素对齐准确性,进而提高语音合成准确性。
技术关键词
频谱特征 文本 矩阵 语音 注意力 概率分布函数 数据对齐模块 模型训练装置 模型训练方法 信息处理模块 模型训练模块 数据获取模块 计算机程序产品 处理器 时序 计算机设备 序列 可读存储介质
系统为您推荐了相关专利信息
1
基于VVC视频编码特点的单帧超分辨率重建方法
特征融合方法 视频编码 超分辨率重建模型 卷积特征提取 视频超分辨率重建
2
一种面向GNSS相对导航的环回矢量型完好性监测方法
完好性监测方法 监测器 风险 接收机 射频
3
基于深度学习和软件无线电的信令通信干扰方法
地理信息数据 通信干扰方法 软件无线电设备 策略 深度神经网络
4
图像生成方法和装置、存储介质及电子设备
图像生成方法 场景 多角度 透明度 训练样本集
5
基于动态时间规整的增强动作反馈方法
动态时间规整算法 反馈方法 体感设备 映射算法 偏差
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号