基于潜在扩散模型的语音合成方法、装置、服务器及介质

AITNT
正文
推荐专利
基于潜在扩散模型的语音合成方法、装置、服务器及介质
申请号:CN202410854549
申请日期:2024-06-27
公开号:CN118629390B
公开日期:2025-11-21
类型:发明专利
摘要
本申请实施例提供一种基于潜在扩散模型的语音合成方法、装置、服务器及存储介质,该方法包括:获取待合成的目标文本;根据目标文本,确定语音情感特征和目标时长信息;通过预设的目标语音合成模型中的神经网络音频编码器,对目标文本进行编码处理,得到第一隐向量;通过残差向量量化器,对第一隐向量进行量化压缩处理,得到第二隐向量;对语音情感特征的向量表示、目标时长信息的向量表示和第二隐向量进行融合处理,得到融合隐向量;通过潜在扩散模型,对融合隐向量进行逆向扩散处理,得到目标隐向量;通过神经网络音频解码器,对目标隐向量进行解码处理,得到合成语音。本申请提高了合成语音的自然度和质量,使得合成语音更加贴近真实的语音。
技术关键词
语音 情感特征 音频解码器 文本 音频编码器 神经网络模型 样本 服务器 处理器 解码模块 编码模块 存储器 计算机 介质 参数
系统为您推荐了相关专利信息
1
一种图像的生成方法、系统、设备和介质
图像生成模型 关键词 嵌入特征 图像解码器 文本编码器
2
一种语义感知的跨模态加密检索方法
加密检索方法 节点 索引 数据加密 跨模态数据
3
基于人工智能的外文票据图像翻译方法、设备和介质
票据 信息抽取模型 图像翻译方法 专用模型 翻译模型训练
4
基于融合损失约束的无监督跨域伪造语音检测方法
语音检测方法 声学特征 网络 判别语音 伪影
5
基于迁移学习的粤语-普通话失语症自动评测方法
自动评测方法 失语症 语法特征 语义特征 特征提取器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号