一种语音生成模型的训练方法、装置、设备及介质

正文

推荐专利

申请号：CN202411519056

申请日期：2024-10-29

公开号：CN119323953B

公开日期：2025-11-21

类型：发明专利

摘要

本申请属于人工智能领域，涉及一种语音生成模型的训练方法，包括：获取目标对象的参考音色频谱、音素信息以及语音频谱；基于参考音色频谱、音素信息以及语音频谱，对预设的初始语音生成模型进行训练，得到模型参数；基于模型参数，分别调整初始语音生成模型的多音色特征提取网络、音素特征提取网络、韵律特征离散化网络、时序对齐模块、注意力融合模块、语音重构解码网络的参数，以构建语音生成模型。本申请还提供一种装置、设备及介质。此外，本申请还涉及区块链技术，语音训练数据和模型参数可存储于区块链中。本申请可以实现音色和韵律信息的解耦，灵活调整音色和韵律信息，以生成具有多样性和灵活性的合成语音。

技术关键词

语音生成模型特征提取网络韵律特征解码网络音色特征对齐模块编码注意力重构计算机可读指令参数瓶颈时序数据基准可读存储介质

系统为您推荐了相关专利信息

一种结合大数据与人工智能的股票量化分析方法及系统

量化分析方法指标智能订单风险信号

一种基于机器视觉的烹调设备火候控制系统

火候控制系统烹调设备图像采集单元标签分区

一种基于YOLOv8的水下目标检测方法

注意力机制检测头检测网络模型动态特征提取网络

一种基于长尾分布优化的无人机目标检测方法

多模态特征特征提取网络多尺度特征无人机深度值

基于动态提示信息的缺失模态的多模态图像识别方法

特征提取网络掌静脉图像加权特征图像识别方法融合特征

一种语音生成模型的训练方法、装置、设备及介质

站点导航

APP 下载