摘要
本发明涉及数据处理技术领域,公开一种文本转语音的合成方法、装置、设备及介质,可应用于金融、医疗领域,该方法包括利用文本数据生成对应的文本语义向量并生成起始样本点;基于起始样本点进行一致性流匹配建模处理,得到速度场;基于速度场迭代更新起始样本点,生成目标语音表示向量;对目标语音表示向量进行频谱解码处理,并输入至声码器模型,生成对应的语音波形数据。在本发明中,针对现有的TTS模型在低步数推理下语音合成速度慢、一致性差的问题,可以引入一致性流匹配建模技术,在构建速度场的基础上实现起始样本点的低步数迭代更新,同时结合频谱解码与声码器建模过程,如此,提高了语音合成过程中的一致性以及合成速度。
技术关键词
语音
语义向量
文本
样本
随机噪声
速度
多层前馈神经网络
波形
声学特征
序列
语义特征
可读存储介质
编码
数据处理技术
解码网络
建模技术
轨迹
处理器
系统为您推荐了相关专利信息
监督深度学习
结构振动响应
掩码矩阵
生成训练样本
标签
图像自动标注方法
术语
迭代特征
文本特征向量
样本
接地引下线
无线传感器模块
在线监测系统
监测终端
神经网络模型