基于GAN的个性化音色特征增强与歌声生成方法

正文

推荐专利

申请号：CN202510650504

申请日期：2025-05-20

公开号：CN120526785A

公开日期：2025-08-22

类型：发明专利

摘要

本申请涉及音频生成技术领域，公开了基于GAN的个性化音色特征增强与歌声生成方法，包括以下步骤：获取目标歌手的音频数据，将梅尔频谱图输入至内容编码器与风格编码器，对风格特征向量施加信息瓶颈约束，将内容特征向量与风格特征向量拼接后输入至生成器网络，将生成的中间频谱表示与对应真实频谱图共同输入判别器，计算生成样本的风格特征分布与目标样本的风格特征分布之间的欧氏距离，将最终优化后的中间频谱表示输入至神经网络声码器中，重建得到音频波形信号，作为生成歌声输出。本发明采用基于生成对抗网络的个性化音色特征增强与歌声生成方法，达到了通过风格编码器精确提取音色特征并通过生成器重建高质量歌声波形的技术效果。

技术关键词

歌声生成方法音色特征风格生成器网络编码器声码器多层卷积神经网络频域滤波方法背景噪声抑制样本卷积模块神经网络架构生成对抗网络波形迭代方法采样技术生成技术音频特征瓶颈

系统为您推荐了相关专利信息

基于注意力与量化编码优化的高光谱遥感图像压缩方法

遥感图像压缩方法高光谱遥感图像遥感图像数据网络模型训练损失函数优化

一种基于CLIP的时序解耦的动作识别方法

动作识别模型注意力归一化模块时序动作识别方法

锂电池充放电检测和管理方法、装置、设备及存储介质

充放电数据电极频域特征序列锂电池

基于随机游走路径的自监督医学图像分割方法及系统

医学图像分割方法节点特征消息传递机制节点更新医学图像分割系统

一种基于SEEM-SAFPN模型的滑坡识别方法、设备、介质及产品

滑坡识别方法文本编码器图像编码器多模态采样器

基于GAN的个性化音色特征增强与歌声生成方法

站点导航

APP 下载