基于潜在扩散模型的语音合成方法、装置、服务器及介质

正文

推荐专利

申请号：CN202410854549

申请日期：2024-06-27

公开号：CN118629390B

公开日期：2025-11-21

类型：发明专利

摘要

本申请实施例提供一种基于潜在扩散模型的语音合成方法、装置、服务器及存储介质，该方法包括：获取待合成的目标文本；根据目标文本，确定语音情感特征和目标时长信息；通过预设的目标语音合成模型中的神经网络音频编码器，对目标文本进行编码处理，得到第一隐向量；通过残差向量量化器，对第一隐向量进行量化压缩处理，得到第二隐向量；对语音情感特征的向量表示、目标时长信息的向量表示和第二隐向量进行融合处理，得到融合隐向量；通过潜在扩散模型，对融合隐向量进行逆向扩散处理，得到目标隐向量；通过神经网络音频解码器，对目标隐向量进行解码处理，得到合成语音。本申请提高了合成语音的自然度和质量，使得合成语音更加贴近真实的语音。

技术关键词

语音情感特征音频解码器文本音频编码器神经网络模型样本服务器处理器解码模块编码模块存储器计算机介质参数

系统为您推荐了相关专利信息

一种图像的生成方法、系统、设备和介质

图像生成模型关键词嵌入特征图像解码器文本编码器

一种语义感知的跨模态加密检索方法

加密检索方法节点索引数据加密跨模态数据

基于人工智能的外文票据图像翻译方法、设备和介质

票据信息抽取模型图像翻译方法专用模型翻译模型训练

基于融合损失约束的无监督跨域伪造语音检测方法

语音检测方法声学特征网络判别语音伪影

基于迁移学习的粤语-普通话失语症自动评测方法

自动评测方法失语症语法特征语义特征特征提取器

基于潜在扩散模型的语音合成方法、装置、服务器及介质

站点导航

APP 下载