摘要
本发明提供了一种视频配音语言的转换方法、系统及相关设备,方法包括从待转换视频中获取音轨数据;对音轨数据进行人声提取并按角色分类,获得各角色的单说话人音频;对各角色的单说话人音频进行语音转文本,获得各角色的原始语言文案;对各角色的单说话人音频进行声音克隆获得各角色的音色模型;对各角色的原始语言文案进行目标语言翻译,获得各角色的翻译文案;基于各角色的翻译文案和各角色的音色模型进行文本转语音,获得各角色的翻译音频;对待转换视频中的音轨数据进行各角色翻译音频的替换,获得配音转换视频。本发明技术方案实现了结合说话人音色的换语言视频配音转换,视频更加多元化,更能满足用户需求。
技术关键词
转换方法
文本
转换设备
音频编辑技术
人声
音色特征
声纹特征
语音活动检测
声码器
语音识别模型
生成对抗网络
可读存储介质
视频同步
翻译模型
存储器
数据获取模块
系统为您推荐了相关专利信息
字词
职业技能评估方法
大数据
文本生成模型
分词
文本生成方法
文本生成模型
答案
解码模块
融合特征