摘要
本公开关于图像处理方法、装置及存储介质。其包括获取多个参考说话人的多个第一视频,第一视频包括记录对应的参考说话人声音的第一音频和表征与第一音频同步的参考说话人的数字形象的第一画面序列;基于多个第一视频训练表情预测模型;基于多个第一视频和表情预测模型训练视觉预测模型;获取第二视频和图像处理模型,基于第二视频训练图像处理模型;第二视频包括记录目标说话人声音的第二音频和表征与第二音频同步的目标说话人的数字形象的第二画面序列,图像处理模型包括表情预测模型和视觉预测模型;获取目标音频;通过将目标音频输入图像处理模型得到目标画面序列其表征与目标音频同步的目标说话人的数字形象。本公开生成高逼真数字人。
技术关键词
图像处理模型
图像处理方法
画面
序列
音频特征提取
视频
说话人身份
视觉
人脸纹理
特征提取器
计算机程序产品
可读存储介质
预测模型训练
参数
计算机设备