摘要
本发明涉及电数字数据处理技术领域,特别涉及一种声音的克隆系统、方法、电子设备及存储介质,其中,系统包括:音频输入模块,用于接收任一声源的参考语音片段;语义提取模块,用于基于参考语音片段,识别参考语音片段的语言学离散语义表示;声纹特征提取模块,用于基于参考语音片段,提取任一声源的声纹特征;声学合成模块,用于将语言学离散语义表示和声纹特征重建为对应的声学频谱;声码器,用于将声学频谱作为输入,以利用参考语音片段输出具有任一声源的音色的语音。由此,解决了相关技术中,声音克隆模型需要一定时长的目标声源语音,不能做到即时克隆,且存在音色泄露现象,导致合成的语音仍含有部分原声源特征等技术问题。
技术关键词
克隆系统
语音
声纹特征
克隆方法
长短期记忆神经网络
语义
特征提取模块
电数字数据处理技术
声码器
声源特征
输入模块
电子设备
计算机程序产品
处理器
音频
算法
序列
可读存储介质
波形
系统为您推荐了相关专利信息
对话生成系统
角色外观
视频帧
主题
计算机视觉技术
应急协同指挥系统
集成视频会议
可视化单元
实时通讯
地图定位功能