摘要
本申请公开了一种基于生成式AI的自动化配音方法及系统。从原始视频中分离出人声音频、背景声音频和无声视频部分,自动识别并翻译音频中的文本内容,将翻译后的文本与对应的时间段结合,生成翻译字幕文本;接着对人声音频进行分段切分,根据声纹特征为每个切分片段标注人物属性,同时评估声音质量;之后利用TTS技术,将分段字幕文本转换成目标语种的音色音频,根据字幕的起止时间将这些音频进行连接合并;最后将生成的目标音频与背景声音频、无声视频合成,得到完整的目标视频。此上述步骤高效完成多语种、多角色、多场景的配音工作,提升配音质量和配音效率。
技术关键词
配音方法
声纹特征
翻译字幕
分段
文本
翻译语言
音频特征提取
TTS技术
时间差
声纹模型
时间段
视频编辑软件
标记
自动语音识别
对音视频
信号