摘要
本发明涉及人工智能领域,可应用于金融、医疗领域,本发明公开了一种语音合成模型的训练方法、装置、设备及介质,该方法包括利用预训练的自动语音识别模型对帧级声学特征序列进行语音识别,得到音素可能性矩阵;根据预设的音素持续时间对齐策略和音素可能性矩阵得到对应的目标音素序列和音素持续时间序列;基于风格特征序列、目标音素序列和音素持续时间序列,通过预设的语音合成模型获取目标声学特征序列;根据帧级声学特征序列、目标声学特征序列和预设的语音合成损失函数获得的语音合成损失对语音合成模型的参数进行调整。本发明基于准确的音素持续时间对语音合成模型进行训练,提高了模型的音素时长对齐精度,提高语音合成质量。
技术关键词
声学特征
序列
自动语音识别
矩阵
编码器
语音特征提取
语音识别单元
策略
处理器
可读存储介质
适配器
元素
训练装置
信号
计算机设备
风格
存储器
参数
系统为您推荐了相关专利信息
水质检测数据
深度学习算法
水质预测方法
节点特征
水质预测系统
多无人机协同
执行调度方法
空间点云数据
网格
特征点描述符
姿态预测方法
掩膜
图像编码器
图像嵌入
注意力编码器