一种基于生成式AI的自动化配音方法及系统

正文

推荐专利

申请号：CN202411558879

申请日期：2024-11-04

公开号：CN119314488A

公开日期：2025-01-14

类型：发明专利

摘要

本申请公开了一种基于生成式AI的自动化配音方法及系统。从原始视频中分离出人声音频、背景声音频和无声视频部分，自动识别并翻译音频中的文本内容，将翻译后的文本与对应的时间段结合，生成翻译字幕文本；接着对人声音频进行分段切分，根据声纹特征为每个切分片段标注人物属性，同时评估声音质量；之后利用TTS技术，将分段字幕文本转换成目标语种的音色音频，根据字幕的起止时间将这些音频进行连接合并；最后将生成的目标音频与背景声音频、无声视频合成，得到完整的目标视频。此上述步骤高效完成多语种、多角色、多场景的配音工作，提升配音质量和配音效率。

技术关键词

配音方法声纹特征翻译字幕分段文本翻译语言音频特征提取 TTS技术时间差声纹模型时间段视频编辑软件标记自动语音识别对音视频信号

一种基于生成式AI的自动化配音方法及系统

站点导航

APP 下载