一种文本转语音的合成方法、装置、设备及介质

正文

推荐专利

申请号：CN202511120112

申请日期：2025-08-11

公开号：CN121011170A

公开日期：2025-11-25

类型：发明专利

摘要

本发明涉及数据处理技术领域，公开一种文本转语音的合成方法、装置、设备及介质，可应用于金融、医疗领域，该方法包括利用文本数据生成对应的文本语义向量并生成起始样本点；基于起始样本点进行一致性流匹配建模处理，得到速度场；基于速度场迭代更新起始样本点，生成目标语音表示向量；对目标语音表示向量进行频谱解码处理，并输入至声码器模型，生成对应的语音波形数据。在本发明中，针对现有的TTS模型在低步数推理下语音合成速度慢、一致性差的问题，可以引入一致性流匹配建模技术，在构建速度场的基础上实现起始样本点的低步数迭代更新，同时结合频谱解码与声码器建模过程，如此，提高了语音合成过程中的一致性以及合成速度。

技术关键词

语音语义向量文本样本随机噪声速度多层前馈神经网络波形声学特征序列语义特征可读存储介质编码数据处理技术解码网络建模技术轨迹处理器

系统为您推荐了相关专利信息

一种基于再生约束监督深度学习模型的结构振动响应重建方法

监督深度学习结构振动响应掩码矩阵生成训练样本标签

工业图像自动标注方法、装置、设备和存储介质

图像自动标注方法术语迭代特征文本特征向量样本

一种基于大模型的中药分类方法

文本实体识别中药数据标签分类方法

变电站接地引下线接地性能在线监测系统及方法

接地引下线无线传感器模块在线监测系统监测终端神经网络模型

零样本离线逆向强化学习多智能体泛用协作方法

策略协作方法度量校正拉格朗日

一种文本转语音的合成方法、装置、设备及介质

站点导航

APP 下载