摘要
本申请实施例属于语音合成技术领域,涉及一种基于编解码器的语音合成方法及相关设备,该方法包括:接收用户终端发送的语音合成请求,其中,所述语音合成请求包括文本提示数据以及参考音频数据;将所述文本提示数据输入至音素转换模块进行音素转换操作,得到音素序列p;对所述参考音频数据进行特征提取操作,得到初始声学条件将所述音素序列p以及所述初始声学条件输入至基于编解码器的语音合成模型进行编码预测操作,得到编码预测序列;对所述编码预测序列进行解码操作,得到目标合成音频。本申请通过多个预测头在自回归模型的每个推理步骤中预测多个标记,从而实现合成时间随标记数量增加而线性减少的效果。
技术关键词
编解码器
序列
语音
编码
计算机可读指令
变量
音频
Viterbi算法
数据
文本
生成符号
可读存储介质
特征提取模块
解码技术
子模块
解码模块
参数
系统为您推荐了相关专利信息
卷积循环神经网络
声码器
阶段
语音
短时傅里叶变换
平台构建方法
决策
卫星通信数据
知识图谱构建
超分辨率重建技术
光伏发电功率
数据生成方法
区域光伏电站
文本编码器
地理位置信息
精密齿轮
缺陷检测方法
深度神经网络
图像索引结构
联合损失函数