摘要
本说明书实施例提供一种视频生成、视频生成模型的训练方法及系统。视频生成系统可以获得展示有数字人的形象的参考图像,并基于参考图像生成视频画面特征,还可以获得数字人待播报的目标语音,至少基于目标语音生成面部驱动特征,还可以获得数字人待执行的肢体动作,并基于肢体动作生成肢体驱动特征。进而,视频生成系统将视频画面特征、肢体驱动特征、以及面部驱动特征输入至视频生成模型,以通过视频生成模型生成目标视频,该目标视频展示的是所述数字人执行所述肢体动作并播报所述目标语音的情景。其中,所述视频生成模型被训练为:在视频生成过程中以面部驱动特征和肢体驱动特征作为条件以控制数字人的肢体动作和面部动作。
技术关键词
驱动特征
视频生成模型
样本
面部
解码单元
视频生成系统
语音
画面
眼睛
图像
注意力机制
视频帧
界面
编码
视频生成方法
情景
训练系统
处理器
文本
系统为您推荐了相关专利信息
时钟同步
信号源
信号识别模型
隔离控制器
信号处理器