摘要
本申请提供一种基于掩码预测的视频转换方法及系统,通过提取待转换视频的待转换音频,根据待转换音频,得到第一语种的音频文本与说话人音频对应的说话人信息,并根据不同于第一语种的第二语种对音频文本执行语种转换,得到待转换文本;根据待转换文本生成第一音频,根据说话人信息检索第二音频,将第一音频和第二音频输入声学模型,以通过通过掩码预测的训练方式得到的声学模型根据第一音频特征和第二音频特征执行语音特征替换,输出目标音频,将目标音频替换待转换音频,得到目标视频。本申请通过掩码预测的方式,提高声学模型提取语音特征的精度,从而提高对第一音频和第二音频提取语音特征的精度,提升语音翻译后的音频的合成效果。
技术关键词
音频特征
视频转换方法
训练特征
转换文本
音频编码
语音特征
音频解码模块
信息检索
数据
特征提取器
视频转换系统
替换算法
邻近算法
索引