摘要
本发明实施例涉及一种视频生成方法、装置、计算机设备及存储介质,通过针对初始视频的每一帧图像进行填充处理,得到第一图像;从初始视频中获取第二图像,以及获取目标音频;从目标音频提取音频特征,从第一图像提取第一图像特征,从第二图像提取第二图像特征;对第一图像特征和第二图像特征进行对齐操作;根据音频特征和对齐后的第二图像特征对第二图像特征进行空间变形;根据变形后的第二图像特征和第一图像特征生成口型图像;根据每个口型图像与目标音频生成目标视频。由此,可以在保持人物身份特征的同时,实现口型与语音内容高度同步的目标视频生成,提升口型与语音匹配生成的自然度和视觉真实感。
技术关键词
图像
视频生成方法
卷积神经网络提取
计算机设备
视觉真实感
视频生成装置
音频特征提取
上采样
视频识别
模块
注意力机制
处理器
程序
语音
存储器
编码器
系统为您推荐了相关专利信息
害虫图像
智能检测模块
空间模块
状态空间模型
多尺度特征
智能视觉监控方法
特征值
胶液
图像分割算法
覆铜板
图像数据预处理
遥感图像处理
空洞
全局平均池化
预训练模型