一种基于编解码器的语音合成方法及相关设备

AITNT
正文
推荐专利
一种基于编解码器的语音合成方法及相关设备
申请号:CN202510014803
申请日期:2025-01-03
公开号:CN119864009B
公开日期:2025-10-14
类型:发明专利
摘要
本申请实施例属于语音合成技术领域,涉及一种基于编解码器的语音合成方法及相关设备,该方法包括:接收用户终端发送的语音合成请求,其中,所述语音合成请求包括文本提示数据以及参考音频数据;将所述文本提示数据输入至音素转换模块进行音素转换操作,得到音素序列p;对所述参考音频数据进行特征提取操作,得到初始声学条件将所述音素序列p以及所述初始声学条件输入至基于编解码器的语音合成模型进行编码预测操作,得到编码预测序列;对所述编码预测序列进行解码操作,得到目标合成音频。本申请通过多个预测头在自回归模型的每个推理步骤中预测多个标记,从而实现合成时间随标记数量增加而线性减少的效果。
技术关键词
编解码器 序列 语音 编码 计算机可读指令 变量 音频 Viterbi算法 数据 文本 生成符号 可读存储介质 特征提取模块 解码技术 子模块 解码模块 参数
系统为您推荐了相关专利信息
1
一种双阶段神经声码器的语音合成方法、系统、终端及介质
卷积循环神经网络 声码器 阶段 语音 短时傅里叶变换
2
基于AI决策的远程急救协同平台构建方法及系统
平台构建方法 决策 卫星通信数据 知识图谱构建 超分辨率重建技术
3
一种基于改进扩散模型的光伏发电功率工况数据生成方法
光伏发电功率 数据生成方法 区域光伏电站 文本编码器 地理位置信息
4
一种精密齿轮的齿面缺陷检测方法及系统
精密齿轮 缺陷检测方法 深度神经网络 图像索引结构 联合损失函数
5
一种大模型增强的电话欺诈高风险用户识别方法及系统
机器学习模型 学习器 高风险 多模型 电话
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号