摘要
本发明涉及数字人技术领域,具体涉及一种定制真人形象的高清数字人视频生成方法,包括以下步骤:S1、采集需定制真人形象的目标人物的音视频数据;S2、对音视频数据进行预处理;S3、根据音频数据定制专属语音模型;首先对步骤S2音频数据进行分段,并使用语音识别模型识别分段音频作为标注,然后训练,获取定制化的专属语音模型;S4、对预处理的音视频数据进行真人形象的拟合生成;S5、进行音频和真人动态视频的组合渲染和输出;输入文本,并根据专属语音模型和输入文本生成音频,同时渲染真人动态视频,然后经过后处理融合音频与真人动态视频并输出,得到匹配语音的高清数字人视频。本发明实现低成本的定制数字人视频生成,以及实现真人语音克隆。
技术关键词
视频生成方法
视频生成系统
子模块
高清
数据
对音视频
椭球模型
视频帧
发音特征
语音识别模型
定制语音
语音特征
面部特征
模型训练模块
音频特征提取
分段