一种基于WavLM和3D高斯溅射的数字人生成方法

正文

推荐专利

申请号：CN202510500566

申请日期：2025-04-21

公开号：CN120279190A

公开日期：2025-07-08

类型：发明专利

摘要

本发明公开了一种基于WavLM和3D高斯溅射的数字人生成方法，所述方法包括：获取目标人物视频并将视频拆分成视频帧和音频帧，基于视频帧建立人脸静态3D高斯场，将3D高斯场投射得到空间特征；将音频帧输入到WavLM得到隐藏状态，将隐藏状态输入特征重塑网络得到音频特征，获取拍摄目标人物视频的相机视角，基于视频帧获取眨眼特征，将空间特征、音频特征、相机视角和眨眼特征融合得到融合特征，基于融合特征和人脸静态3D高斯场并进行渲染得到新视频帧，基于新视频帧得到数字人。本发明采用3D高斯溅射技术为建模方法，将各种特征进行融合，基于融合特征和人脸静态3D高斯场并进行渲染得到新视频帧，基于新视频帧得到数字人，在保证快速推理的情况下提升唇同步以及面部细节。

技术关键词

视频帧融合特征音频特征人脸人工神经网络生成方法视角相机多层感知器溅射技术编码系统建模方法点云面部图像注意力参数

一种基于WavLM和3D高斯溅射的数字人生成方法

站点导航

APP 下载