摘要
本发明公开了一种基于预训练特征与头部稳定模块的说话数字人生成方法,构建说话数字人生成模型,提取语音帧的语音特征和参考视频帧的表情特征,提取参考视频帧的头部姿势,从参考视频帧提取脸部图像和嘴部图像并分别得到对应的高斯基元,根据脸部分支的高斯基元、语音特征和表情特征得到脸部分支的逐点变形参数,根据嘴部分支的高斯基元和语音特征和和嘴部分支的逐点变形参数,渲染得到脸部图像和嘴部图像后融合生成说话数字人视频,采用训练样本集对说话数字人生成模型进行训练,用训练好的说话数字人生成模型根据输入的语音和参考视频生成说话数字人视频。本发明对语音编码方法和头部姿势获取方法进行改进,从而提高生成说话数字人视频的质量。
技术关键词
特征提取模块
语音特征
基元
视频
稳定调节器
表情特征
生成方法
面部关键点
语音编码器
分支
编码模块
通用特征
融合特征
训练特征
图像分割
跟踪器
姿势
系统为您推荐了相关专利信息
在线智能检测方法
震动传感器阵列
神经网络模型
特征提取网络
特征提取模块
危险源监测装置
整车控制装置
智能车辆
车辆控制系统
路径规划装置
安防监控信息
安防监控视频
存储服务器
大数据
特征提取算法