摘要
本申请提供一种语音驱动人脸视频生成方法,包括:获取语音数据,提取语音数据的音频特征;将音频特征、背景图像和采样点输入至人脸生成模型,利用人脸生成模型生成每帧语音对应的人脸说话图像;将人脸说话图像拼接成视频,并叠加语音数据,得到语音驱动人脸视频生成视频。本申请无需对背景图像独立进行三维建模,同时可大大减少计算量,降低渲染的硬件成本,从而满足应用场景下对实时性、低成本的需求。本申请还提供一种语音驱动人脸视频生成系统、存储介质和电子设备,具有上述有益效果。
技术关键词
视频生成方法
语音
生成对抗模型
视频生成系统
采样点
编码
图像拼接
人脸姿态
射线
相机外参
嵌入特征
风格
人脸图像提取
音频特征提取
关键点
三维位置信息
系统为您推荐了相关专利信息
语音控制指令
语音功能测试方法
车机系统
新能源汽车
功能测试系统
手势识别网络
输出特征
AR交互系统
手势识别模块
语音识别模块
储能系统充放电
三相平衡
功率
三相不平衡度
储能系统荷电状态