摘要
本发明公开了一种低延迟语音合成方法、装置、介质和设备,属于语音处理技术领域,所述方法包括:S10:对输入文本进行规范化处理,得到规范化文本;S20:对所述规范化文本进行分词处理、词性标注处理和韵律信息分析,得到语言结构化文本;S30:利用深度学习算法对所述语言结构化文本进行特征提取,得到文本特征向量;S40:使用基于变换器的非自回归的语音合成模型,将所述文本特征向量转换为语音信号。本发明降低了语音合成的延迟时间,提高了语音的自然度和表现力。
技术关键词
文本特征向量
并行解码方法
生成语音信号
深度学习算法
长度调节器
低延迟
序列
编码器
分词
变换器
语义特征
解码器
子模块
数据
语法结构
长短期记忆模型
系统为您推荐了相关专利信息
智能生成系统
跨模态
参数
代码特征
多源异构数据
状态识别方法
中央处理系统
热成像传感器
高清摄像头
智能可穿戴设备
大语言模型
三元组
知识图谱构建方法
多模态
构建知识图谱
数字微镜器件
波前传感器
相干接收机
远距离拾音方法
变形镜