摘要
本申请公开了一种数字人面部表情同步方法、设备及介质,划分目标视频得到对应视频集并对视频集进行预处理得到标准视频集;基于音频与嘴唇运动同步判别器提取音频特征和视频特征以计算余弦相似度,并结合二值交叉熵损失函数实现音频特征和视频特征在同一参数空间转换;根据标准视频集对人脸进行三维形态模型建模,获取每帧人脸图像的三维空间旋转平移矩阵、相机观测方向、表情系数和人脸三维模型的形状系数,并得到平均脸型和关键点坐标;根据关键点坐标和相机观测方向获得多分辨率哈希编码的空间几何特征并结合音频特征获得条件特征,基于条件特征和高频编码信息,构建并渲染体密度和颜色,以生成音频驱动后的数字人面部表情图像。
技术关键词
人面部表情
音频特征
同步方法
关键点
三维形态模型
人脸三维模型
人脸特征向量
多分辨率
音视频
坐标
图像
非易失性计算机存储介质
计算机可执行指令
编码
相机
三维人脸表情
系统为您推荐了相关专利信息
洗手池
定时方法
感应模块
深度传感器
红外传感器
智能交互控制
智能场景识别方法
融合场景
数字机顶盒
多模态
深度学习图像处理
关键点
红外监控摄像机
多模态
特征金字塔网络