摘要
本发明公开了一种基于3DGS的高保真语音驱动数字人合成方法,首先,训练静态数字人模型,基于3D Gaussian Splatting构建,并用空间判别器提升图像质量,捕捉数字人基础形状和外观。随后,训练动态驱动网络,包含可优化全局提示、渐进式条件属性预测网络模块和双重判别器架构,其中,可优化全局提示模块用于稳定数字人面部几何结构,防止动画过程中的漂移;渐进式条件属性预测网络模块用于高效且时序连贯地预测数字人模型的动态高斯参数;双判别器架构模块用于提升合成数字人动画的真实感和时间一致性。本发明适用于语音驱动的数字人动画合成,能够有效提升合成数字人动画的真实感、效率和结构连贯性,并实现实时渲染。
技术关键词
动态人脸
双判别器
网络模块
图像
语音
动画
球谐系数
透明度
多层感知器
参数
多分辨率
卷积神经网络提取
序列
时序
反向传播方法
真实感
分阶段
系统为您推荐了相关专利信息
面部识别模型
无标签样本
图像特征提取
置信度阈值
无标签数据
图像块
超分辨率重建模型
服务器模块
无缝拼接
标签
铆接控制方法
图像特征信息
铆接机
摄像模块
视觉
识读模组
图像识别装置
主控单元
自动售货机
补光组件