摘要
本发明公开了一种基于高斯泼溅的说话人脸视频生成方法,主要涉及两阶段。第一阶段使用大规模数据集预训练基于音频生成动态人脸表情系数的模型。该模型基于音频信息和图像信息,学习通用的面部表情和运动模式,能够生成与音频同步的动态面部表情系数。第二阶段,利用目标人物的数据集对预训练模型进行微调,微调完成后基于微调后的模型获取人脸表情系数,进一步训练一个基于人脸表情系数驱动的高斯形变网络来对高斯点云进行形变处理,光栅化后获得目标人物说话图像,最后两阶段模型集成,将逐帧的图像与音频内容同步合并,以实现说话人脸视频生成任务。本发明方法不仅能够快速生成未出现在数据集中的全新音频对应的动态人脸,还能在保持高生成速度的同时确保生成结果的自然性和高质量,实现了音视频同步与表情细节的高度还原。
技术关键词
人脸表情
视频生成方法
动态人脸
音频编码器
头部特征
图像
感知损失函数
点云信息
音频特征
更新模型参数
网络
视听语音识别
面部关键点检测
动态面部表情
三维形变模型
多分辨率
音频编码方法