一种基于编解码器的语音合成方法及相关设备

正文

推荐专利

申请号：CN202510014803

申请日期：2025-01-03

公开号：CN119864009B

公开日期：2025-10-14

类型：发明专利

摘要

本申请实施例属于语音合成技术领域，涉及一种基于编解码器的语音合成方法及相关设备，该方法包括：接收用户终端发送的语音合成请求，其中，所述语音合成请求包括文本提示数据以及参考音频数据；将所述文本提示数据输入至音素转换模块进行音素转换操作，得到音素序列p；对所述参考音频数据进行特征提取操作，得到初始声学条件将所述音素序列p以及所述初始声学条件输入至基于编解码器的语音合成模型进行编码预测操作，得到编码预测序列；对所述编码预测序列进行解码操作，得到目标合成音频。本申请通过多个预测头在自回归模型的每个推理步骤中预测多个标记，从而实现合成时间随标记数量增加而线性减少的效果。

技术关键词

编解码器序列语音编码计算机可读指令变量音频 Viterbi算法数据文本生成符号可读存储介质特征提取模块解码技术子模块解码模块参数

系统为您推荐了相关专利信息

一种双阶段神经声码器的语音合成方法、系统、终端及介质

卷积循环神经网络声码器阶段语音短时傅里叶变换

基于AI决策的远程急救协同平台构建方法及系统

平台构建方法决策卫星通信数据知识图谱构建超分辨率重建技术

一种基于改进扩散模型的光伏发电功率工况数据生成方法

光伏发电功率数据生成方法区域光伏电站文本编码器地理位置信息

一种精密齿轮的齿面缺陷检测方法及系统

精密齿轮缺陷检测方法深度神经网络图像索引结构联合损失函数

一种大模型增强的电话欺诈高风险用户识别方法及系统

机器学习模型学习器高风险多模型电话

一种基于编解码器的语音合成方法及相关设备

站点导航

APP 下载