摘要
本申请提供了一种视频生成方法、视频生成模型的训练方法、装置、设备、存储介质及程序产品;方法包括:从第一视频的多个视频帧中识别出检测框,其中,每个视频帧中的检测框在视频帧中包围目标对象的面部;基于多个视频帧的检测框确定包围框,其中,包围框在多个视频帧中均包围目标对象的面部;确定每个视频帧的掩码区域,其中,每个视频帧的掩码区域在视频帧中包围目标对象的嘴部;基于掩码区域对视频帧中位于包围框内的区域进行掩码处理,得到掩码视频帧;掩码视频帧构成掩码视频;基于掩码视频、第一视频和音频数据,生成第二视频,其中,在第二视频中目标对象的嘴部动作与音频数据同步匹配。通过本申请,能够提升视觉配音的配音质量。
技术关键词
视频生成模型
视频帧
视频生成方法
数据处理模块
计算机可执行指令
音频特征
编码特征
对象
空间特征提取
图像编码
噪声样本
编码像素块
面部
噪声预测
注意力
系统为您推荐了相关专利信息
构建机器学习模型
岩性识别方法
初始聚类中心
标签
矩阵
面向监控视频
车辆检索方法
关键帧
去重算法
视频帧
空气质量信息
分时段
数据采集模块
机器学习模型
人机交互模块
驾驶员酒精检测
深度学习网络模型
图像采集模块
车载显示屏
视频帧