摘要
本发明公开了基于动态神经网络和特征调制的零样本语音克隆方法,所述方法包括说话人风格编码器从参考音频中提取说话人风格向量;基于SGF算法对说话人风格向量进行特征调制,将调制后的说话人风格向量输入生成器;所述生成器基于动态神经网络合成目标说话人音频。所述方法能够在零样本情境下对任一说话人的音频进行克隆,合成流畅自然、相似度高的目标音频。
技术关键词
动态神经网络
风格
克隆方法
编码器
双曲正切函数
序列
样本
Sigmoid函数
MFCC特征
音频
适配器
个性化语音
基准特征
解码器
注意力机制
因子
线性
系统为您推荐了相关专利信息
多级矢量量化
无线通信装置
机器学习模型
比特流
码字
令牌
测量方法
变电站
可见光图像
多视角图像采集
工业机器人编程
动态知识图谱
知识点
教学方法
学生学习状态