摘要
本申请公开了一种数字人视频渲染方法、设备及介质,涉及计算机图形学与生成对抗网络交叉领域,方法包括:基于单一融合架构的生成对抗网络,构建生成对抗模型;基于数字人参考图像对原始音视频数据进行多模态预处理;通过生成对抗模型的语音特征提取模块,提取双粒度语音特征,并进行融合;基于数字人参考图像对应的参考关键点和融合语音特征,在UV参数化空间中确定数字人参考图像的局部形变场;对数字人参考图像的身份纹理进行采样,生成目标数字人面部图像;通过生成对抗模型的判别器,基于多尺度对数字人面部图像进行验证。通过双粒度语音特征融合与生成器多分辨率注入,实现语音语义与面部动作的深层对齐。
技术关键词
视频渲染方法
生成对抗模型
人面部图像
关键点
语音特征提取
音视频
唇部特征
生成对抗网络
音频特征
身份
双粒度
坐标
构建三维人脸模型
非易失性计算机存储介质
计算机可执行指令
双线性插值算法
纹理