摘要
本发明公开了一种基于神经网络模型的语音克隆方法、装置、设备及介质。所述方法包括:将克隆参考语音进行音频信息提取,获取语音信号与背景噪声;将所述语音信号通过预设特征提取方式提取对应的语音特征,将所述背景噪声进行噪声提取,获取背景音特征;将所述语音特征以及所述背景音特征进行加权融合,获取目标融合特征;根据所述目标融合特征与预设待合成文本通过训练好的目标神经网络模型进行语音克隆,生成目标克隆语音。本发明可应用于金融保险与医疗健康等业务中的语音克隆中,可解决现有技术中无法进行高效地进行语音克隆的问题。
技术关键词
神经网络模型
语音特征
特征提取方式
融合特征
背景噪声
语音文字识别
声学特征
噪声提取
克隆方法
文本特征向量
音频
声纹特征
信号
语音识别模型
数据
计算机设备
深度神经网络
生成语音
系统为您推荐了相关专利信息
配乐生成方法
音乐特征
跨模态
运动向量
面积特征
路侧设备
移动式
粒子群优化算法
多源特征
感知调节系统
数据分析模块
规划系统
kmeans算法
大数据
信息模块