摘要
本申请涉及音频生成技术领域,公开了基于GAN的个性化音色特征增强与歌声生成方法,包括以下步骤:获取目标歌手的音频数据,将梅尔频谱图输入至内容编码器与风格编码器,对风格特征向量施加信息瓶颈约束,将内容特征向量与风格特征向量拼接后输入至生成器网络,将生成的中间频谱表示与对应真实频谱图共同输入判别器,计算生成样本的风格特征分布与目标样本的风格特征分布之间的欧氏距离,将最终优化后的中间频谱表示输入至神经网络声码器中,重建得到音频波形信号,作为生成歌声输出。本发明采用基于生成对抗网络的个性化音色特征增强与歌声生成方法,达到了通过风格编码器精确提取音色特征并通过生成器重建高质量歌声波形的技术效果。
技术关键词
歌声生成方法
音色特征
风格
生成器网络
编码器
声码器
多层卷积神经网络
频域滤波方法
背景噪声抑制
样本
卷积模块
神经网络架构
生成对抗网络
波形
迭代方法
采样技术
生成技术
音频特征
瓶颈
系统为您推荐了相关专利信息
遥感图像压缩方法
高光谱遥感图像
遥感图像数据
网络模型训练
损失函数优化
动作识别模型
注意力
归一化模块
时序
动作识别方法
医学图像分割方法
节点特征
消息传递机制
节点更新
医学图像分割系统
滑坡识别方法
文本编码器
图像编码器
多模态
采样器