摘要
本发明公开了一种基于深度学习的个性化语音克隆方法及系统,涉及语音克隆技术领域,包括:采集目标用户的语音样本;基于卷积神经网络,提取语音样本的高维特征;基于变分自编码器,将高维特征编码为低维向量;利用预设合成模型,将低维向量转化为语音特征序列;以语音样对应的文本和语音特征序列为训练样本,对预设合成模型进行训练,得到训练好的合成模型;基于训练好的合成模型,提取待克隆文本的语音特征序列;将待克隆文本的语音特征序列输入到基于改进的WaveNet结构的语音合成模型,生成目标语音波形。本发明能够在少量语音数据的基础上,实现高质量的语音克隆。
技术关键词
语音特征
个性化语音
卷积神经网络提取
克隆方法
特征提取模块
短时傅里叶变换
监督学习方法
序列
文本
样本
语音克隆技术
波形
数据采集模块
语谱图
编码模块
包络
前馈神经网络
克隆系统
编码器
系统为您推荐了相关专利信息
单相整流器
故障诊断方法
仿真数据
故障类别
网络
图像重建
样本
训练神经网络模型
模型生成方法
场景
数字化监控方法
索塔结构
斜拉桥索塔
智能液压控制系统
定位骨架
谐波抑制系统
长短期记忆神经网络
特征提取模块
sigmoid函数
电流