摘要
本发明实施例提供一种基于无监督特征的声音转换方法、系统、电子设备和存储介质。该方法包括:将源说话人的第一音频以及目标说话人的第二音频输入至基于无监督特征的声音转换模型;基于自监督语音模型提取源说话人的第一音频中的无监督特征;通过声纹提取模型来提取第二音频中包括音色及语调的x‑vector特征;利用转换模型将无监督特征映射到目标说话人的目标语音特征域,得到音色转换特征;将x‑vector特征作为个性化的辅助特征对音色转换特征在声码器中进行特征重建,得到目标说话人的转换音频。本发明实施例基于无监督特征提取的声音转换模型能够实现高效的声音转换并且能提高模型的泛化能力,取得更优异的声音转换效果。
技术关键词
音频
声音转换方法
声码器
无监督特征提取
语音特征
深度神经网络
计算机程序产品
多语种语音
电子设备
信噪比
数据
文本
处理器通信
指令
输入模块
集群
系统为您推荐了相关专利信息
基频检测方法
谐波
信号
基频检测算法
数据处理模块
软件无线电技术
接口模块
业务终端
ASIC芯片
处理器系统
移动终端设备
智能硬件
文件备份方法
云服务设备
设备标识信息
语音识别系统
流式语音识别方法
文本
序列
错误检测器
噪声数据
智能信息处理技术
生物多样性研究
音频
重建原始数据