基于GAN的个性化音色特征增强与歌声生成方法

AITNT
正文
推荐专利
基于GAN的个性化音色特征增强与歌声生成方法
申请号:CN202510650504
申请日期:2025-05-20
公开号:CN120526785A
公开日期:2025-08-22
类型:发明专利
摘要
本申请涉及音频生成技术领域,公开了基于GAN的个性化音色特征增强与歌声生成方法,包括以下步骤:获取目标歌手的音频数据,将梅尔频谱图输入至内容编码器与风格编码器,对风格特征向量施加信息瓶颈约束,将内容特征向量与风格特征向量拼接后输入至生成器网络,将生成的中间频谱表示与对应真实频谱图共同输入判别器,计算生成样本的风格特征分布与目标样本的风格特征分布之间的欧氏距离,将最终优化后的中间频谱表示输入至神经网络声码器中,重建得到音频波形信号,作为生成歌声输出。本发明采用基于生成对抗网络的个性化音色特征增强与歌声生成方法,达到了通过风格编码器精确提取音色特征并通过生成器重建高质量歌声波形的技术效果。
技术关键词
歌声生成方法 音色特征 风格 生成器网络 编码器 声码器 多层卷积神经网络 频域滤波方法 背景噪声抑制 样本 卷积模块 神经网络架构 生成对抗网络 波形 迭代方法 采样技术 生成技术 音频特征 瓶颈
系统为您推荐了相关专利信息
1
基于注意力与量化编码优化的高光谱遥感图像压缩方法
遥感图像压缩方法 高光谱遥感图像 遥感图像数据 网络模型训练 损失函数优化
2
一种基于CLIP的时序解耦的动作识别方法
动作识别模型 注意力 归一化模块 时序 动作识别方法
3
锂电池充放电检测和管理方法、装置、设备及存储介质
充放电数据 电极 频域特征 序列 锂电池
4
基于随机游走路径的自监督医学图像分割方法及系统
医学图像分割方法 节点特征 消息传递机制 节点更新 医学图像分割系统
5
一种基于SEEM-SAFPN模型的滑坡识别方法、设备、介质及产品
滑坡识别方法 文本编码器 图像编码器 多模态 采样器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号