一种基于3DGS的高保真语音驱动数字人合成方法

正文

推荐专利

申请号：CN202510457933

申请日期：2025-04-14

公开号：CN119991888B

公开日期：2025-07-29

类型：发明专利

摘要

本发明公开了一种基于3DGS的高保真语音驱动数字人合成方法，首先，训练静态数字人模型，基于3D Gaussian Splatting构建，并用空间判别器提升图像质量，捕捉数字人基础形状和外观。随后，训练动态驱动网络，包含可优化全局提示、渐进式条件属性预测网络模块和双重判别器架构，其中，可优化全局提示模块用于稳定数字人面部几何结构，防止动画过程中的漂移；渐进式条件属性预测网络模块用于高效且时序连贯地预测数字人模型的动态高斯参数；双判别器架构模块用于提升合成数字人动画的真实感和时间一致性。本发明适用于语音驱动的数字人动画合成，能够有效提升合成数字人动画的真实感、效率和结构连贯性，并实现实时渲染。

技术关键词

动态人脸双判别器网络模块图像语音动画球谐系数透明度多层感知器参数多分辨率卷积神经网络提取序列时序反向传播方法真实感分阶段

系统为您推荐了相关专利信息

图案绘制方法、芯片、电子设备及存储介质

图案绘制方法像素点图像坐标系数据

一种面部识别模型的训练方法、装置及设备

面部识别模型无标签样本图像特征提取置信度阈值无标签数据

一种基于AI的超屏图像服务器性能提升与优化方法及系统

图像块超分辨率重建模型服务器模块无缝拼接标签

一种基于机器视觉的智能铆接控制方法

铆接控制方法图像特征信息铆接机摄像模块视觉

一种环绕式图像识别装置及方法、反向自动售货机

识读模组图像识别装置主控单元自动售货机补光组件

一种基于3DGS的高保真语音驱动数字人合成方法

站点导航

APP 下载