语音合成模型的训练方法、装置、设备及介质

正文

推荐专利

申请号：CN202511053340

申请日期：2025-07-29

公开号：CN120708596A

公开日期：2025-09-26

类型：发明专利

摘要

本发明涉及人工智能领域，可应用于金融、医疗领域，本发明公开了一种语音合成模型的训练方法、装置、设备及介质，该方法包括利用预训练的自动语音识别模型对帧级声学特征序列进行语音识别，得到音素可能性矩阵；根据预设的音素持续时间对齐策略和音素可能性矩阵得到对应的目标音素序列和音素持续时间序列；基于风格特征序列、目标音素序列和音素持续时间序列，通过预设的语音合成模型获取目标声学特征序列；根据帧级声学特征序列、目标声学特征序列和预设的语音合成损失函数获得的语音合成损失对语音合成模型的参数进行调整。本发明基于准确的音素持续时间对语音合成模型进行训练，提高了模型的音素时长对齐精度，提高语音合成质量。

技术关键词

声学特征序列自动语音识别矩阵编码器语音特征提取语音识别单元策略处理器可读存储介质适配器元素训练装置信号计算机设备风格存储器参数

系统为您推荐了相关专利信息

基于深度学习算法的再生水水质预测方法和系统

水质检测数据深度学习算法水质预测方法节点特征水质预测系统

智能多无人机协同任务执行调度系统及方法

多无人机协同执行调度方法空间点云数据网格特征点描述符

一种用于智能交通的数据可视化处理方法

街道数据可视化智能交通纹理 Snake模型

一种语言驱动的物体抓取姿态预测方法、终端及存储介质

姿态预测方法掩膜图像编码器图像嵌入注意力编码器

基于多自由度机械臂的逆运动学解算与自碰撞检测方法

多自由度机械碰撞检测方法关键点坐标系矩阵

语音合成模型的训练方法、装置、设备及介质

站点导航

APP 下载