摘要
本公开提供一种数字人合成方法、装置、电子设备及存储介质,涉及人工智能技术领域。所述方法包括:获取目标图像、驱动视频及目标音频;提取所述目标图像中的三维人脸数据和三维隐式关键点,以及所述目标音频的音频特征;基于所述三维人脸数据及所述音频特征,预测所述音频特征映射的所述三维人脸数据;获取所述驱动视频中人物的头部姿态数据,并基于所述头部姿态数据、所述三维隐式关键点及所述音频特征映射的所述三维人脸数据预测所述目标图像的运动光流;基于所述运动光流合成所述数字人的视频帧图像,以得到所述数字人播报所述目标音频的视频。本公开保证了数字人的人脸细节描述及头部摆动连续自然,提高了数字人口播视频的效果及稳定性。
技术关键词
三维人脸数据
音频特征
人脸关键点
图像
视频帧
运动
电子设备
人工智能技术
计算机
坐标
指令
矩阵
模块
可读存储介质
处理器
系统为您推荐了相关专利信息
训练计算机
筛选系统
高通量筛选
微流控芯片
纳米材料结构
肉制品异物
多模态传感器
X射线成像器
在线检测方法
视觉图像传感器
异常检测方法
预训练模型
样本
图文
图像特征提取
路面附着系数
车辆控制方法
识别神经网络
点云
训练集优化