摘要
本发明公开了一种基于WavLM和3D高斯溅射的数字人生成方法,所述方法包括:获取目标人物视频并将视频拆分成视频帧和音频帧,基于视频帧建立人脸静态3D高斯场,将3D高斯场投射得到空间特征;将音频帧输入到WavLM得到隐藏状态,将隐藏状态输入特征重塑网络得到音频特征,获取拍摄目标人物视频的相机视角,基于视频帧获取眨眼特征,将空间特征、音频特征、相机视角和眨眼特征融合得到融合特征,基于融合特征和人脸静态3D高斯场并进行渲染得到新视频帧,基于新视频帧得到数字人。本发明采用3D高斯溅射技术为建模方法,将各种特征进行融合,基于融合特征和人脸静态3D高斯场并进行渲染得到新视频帧,基于新视频帧得到数字人,在保证快速推理的情况下提升唇同步以及面部细节。
技术关键词
视频帧
融合特征
音频特征
人脸
人工神经网络
生成方法
视角
相机
多层感知器
溅射技术
编码系统
建模方法
点云
面部
图像
注意力
参数