摘要
本申请实施例提供了一种语音合成模型的训练方法、装置、设备及存储介质,属于人工智能技术领域。该方法包括:获取文本样本的音素序列,以及文本样本的语音的真实声学特征;将音素序列和真实声学特征输入至改进TTS声学模型进行训练;通过OT‑CFM机制,引导常微分方程对音素序列进行声学特征生成处理,得到与文本样本的期望声学特征对齐的预测声学特征;根据对齐的预测声学特征和真实声学特征,对改进TTS声学模型进行参数更新,得到训练好的语音合成模型,训练好的语音合成模型用于合成文本的语音。本申请实施例能够降低训练难度和训练成本,提供具有更快合成速度、更高合成效果的语音合成模型,以提高合成的语音的质量。
技术关键词
声学特征
语音
文本
样本
序列
解码器
参数更新模块
计算机设备
模型训练模块
机制
可读存储介质
人工智能技术
数据获取模块
对齐模块
训练装置
处理器
存储器
编码器
系统为您推荐了相关专利信息
多源异构大数据
三元组
多源异构数据源
实体
电子病历系统
性能检测方法
畸变校正算法
多模态
匈牙利算法
异常数据处理
调控模型
污染物特征
生成训练样本
信息预测方法
数据