摘要
本申请提供了一种视频生成模型的训练方法、装置、设备、存储介质、程序产品及视频生成方法;包括:获取第一样本数据集;第一样本数据集包括第一驱动音频、第一对象的第一真值视频以及第一掩码视频;第一掩码视频是对第一真值视频中第一对象的脸部部分区域进行掩码后得到的视频;通过待训练的视频生成模型,基于第一驱动音频,对第一真值视频和第一掩码视频进行语音驱动,得到第一驱动视频;基于第一驱动音频、第一驱动视频和第一真值视频进行判别损失计算,得到视频生成模型的判别损失结果;基于判别损失结果,对视频生成模型的模型参数进行更新,得到训练后的视频生成模型。通过本申请,能够提升视频生成模型的视频生成效果。
技术关键词
视频生成模型
视频生成方法
计算机可执行指令
图像
视觉特征提取
语义特征提取
语音
对象
计算机程序产品
音频特征
样本
可读存储介质
解码模块
编码模块
系统为您推荐了相关专利信息
野火检测
转换后图像
双向注意力机制
图像特征数据
切片
高空作业安全带
注意力
非线性神经网络
输入检测系统
图片
多模态特征
自动生成方法
归一化植被指数
多尺度特征金字塔
分支
小角X射线散射
校准方法
探测器
滤波片
蒙特卡洛