摘要
本发明提供一种虚拟人视频生成方法、装置、电子设备及存储介质,涉及人工智能技术领域,该方法中通过将每个视频帧中的人脸图像、遮盖图像以及语音特征一同输入至目标图像生成模型进行处理,可以使最终得到的虚拟人视频与待处理视频相比,仅虚拟人的口型发生变化,与驱动语音一致,姿态依然保持一致,可以使虚拟人形象更加逼真,提高用户的观看体验。而且,该方法中将人脸图像和遮盖图像分别进行编码,可以使人脸图像的信息得到充分应用,进而结合自注意力机制以及交叉注意力机制,将图像特征与语音特征进行融合,使人脸图像的细节保持度更高,降低虚拟人与真人的差异,提高虚拟人视频的逼真效果。
技术关键词
图像生成模型
视频生成方法
语音特征
感知特征
交叉注意力机制
样本
融合特征
人脸图像特征
非暂态计算机可读存储介质
视频生成装置
编码
电子设备
人工智能技术
级联
系统为您推荐了相关专利信息
图像增强方法
状态空间模型
融合小波
离散小波变换
恢复器
图像生成模型
适配器
图像生成方法
边缘检测
对象
红外序列图像
可见光图像
特征金字塔网络
检测网络模型
生成器网络
脉冲压缩技术
时间反转镜
渗漏定位方法
声学特征
时分多址技术
行车记录视频
车载屏幕
视频生成方法
智能驾驶系统
机器可读指令