一种基于高斯泼溅的说话人脸视频生成方法

正文

推荐专利

一种基于高斯泼溅的说话人脸视频生成方法

申请号：CN202411575054

申请日期：2024-11-06

公开号：CN119600190B

公开日期：2025-10-10

类型：发明专利

摘要

本发明公开了一种基于高斯泼溅的说话人脸视频生成方法，主要涉及两阶段。第一阶段使用大规模数据集预训练基于音频生成动态人脸表情系数的模型。该模型基于音频信息和图像信息，学习通用的面部表情和运动模式，能够生成与音频同步的动态面部表情系数。第二阶段，利用目标人物的数据集对预训练模型进行微调，微调完成后基于微调后的模型获取人脸表情系数，进一步训练一个基于人脸表情系数驱动的高斯形变网络来对高斯点云进行形变处理，光栅化后获得目标人物说话图像，最后两阶段模型集成，将逐帧的图像与音频内容同步合并，以实现说话人脸视频生成任务。本发明方法不仅能够快速生成未出现在数据集中的全新音频对应的动态人脸，还能在保持高生成速度的同时确保生成结果的自然性和高质量，实现了音视频同步与表情细节的高度还原。

技术关键词

人脸表情视频生成方法动态人脸音频编码器头部特征图像感知损失函数点云信息音频特征更新模型参数网络视听语音识别面部关键点检测动态面部表情三维形变模型多分辨率音频编码方法

一种基于高斯泼溅的说话人脸视频生成方法

站点导航

APP 下载