摘要
本发明属于语音处理技术领域,适用于医疗领域和金融领域,公开了一种基于条件匹配流的语音合成方法、装置、设备及介质,所述方法包括:将第二文本数据输入至语音合成模型的编码器中进行音频特征提取,对提取的音频特征向量进行掩码处理;获取待合成的第三文本数据,将第一音频特征向量和待合成的第三文本数据输入至语音合成模型的条件匹配流模块进行特征分布的调节,并基于条件匹配流模块的向量场和第二音频特征向量,将第一音频特征向量和待合成的第三文本数据转换为第三音频特征向量;将第三音频特征向量输入至语音合成模型的解码器中进行解码,得到待合成的第三文本数据生成的语音数据。本发明有效的提高了语音合成模型生成语音数据的效率。
技术关键词
数据
样本
音频特征提取
中文文本
解码器
声学特征
自动语音识别
编码器
可读存储介质
特征提取模块
生成语音
处理器
拼音
解码模块
计算机设备