一种高表现力歌唱声音合成模型训练方法、合成方法及装置

正文

推荐专利

申请号：CN202410940016

申请日期：2024-07-15

公开号：CN119049445B

公开日期：2025-04-01

类型：发明专利

摘要

本发明提供一种高表现力歌唱声音合成模型训练方法、合成方法及装置，获取歌词文本以及由真实歌声预测得到的乐谱序列；将歌词文本转换为音素信息，从歌声音频数据中提取歌声的物理信息并分析，得到强度信息；将音素信息和乐谱序列的属性信息输入文本编码器生成文本嵌入序列，由时长预测器确定每个字的持续时长，将文本嵌入序列和持续时长输入长度约束器生成语音表征；将语音表征输入基频解码器和梅尔解码器生成基频和梅尔谱；将基频、梅尔谱和语音表征相加得到混合嵌入向量，将混合嵌入向量输入Transformer和连续语音单元表征模块生成连续语音单元向量，由声码器合成预测歌声。本发明提供的方法对各属性进行细粒度建模，避免耦合，合成高质量歌声。

技术关键词

模型训练方法文本编码器信号处理模块谐波解码器序列生成语音声码器强度计算机程序产品周期性音频物理可读存储介质处理器数据指令

系统为您推荐了相关专利信息

基于大脑EEG信号的高保真3D图像重建方法

图像生成模型联合损失函数图像重建方法图像解码器编码器

一种基于图异常检测的多渠道数据监控范围调整方法

节点重构误差自动编码器邻居融合注意力机制

一种催缴信息确定方法、模型训练方法及停车费管理系统

指数模型训练方法生成训练样本管理系统 XGBoost模型

一种模糊图像的增强方法、装置、电子设备及存储介质

像素点融合特征上采样图像增强模型掩码矩阵

一种从腹腔镜手术图像获取长文本描述的生成与评估方法

视觉特征腹腔镜手术文本腹腔镜图像解码器

一种高表现力歌唱声音合成模型训练方法、合成方法及装置

站点导航

APP 下载