摘要
一种基于深度感知融合的语音驱动人脸视频生成方法及装置,涉及计算机视觉与图像处理领域,方法包括:S1,获取具有音频片段和参考图像的人脸说话视频数据集,对数据集进行预处理后,分为训练数据集和测试数据集;S2,构建人脸视频生成模型;包括音频编码器、图像编码器、深度编码器、交叉参考模块和跨模态注意力模块;S3,使用训练数据集合训练人脸视频生成模型,得到训练好的人脸视频生成模型;S4,将测试数据集输入训练好的人脸视频生成模型,输出生成的结合音频和视频的人脸视频。本发明通过在人脸视频生成模型中引入交叉参考模块和跨模态注意力模块,有效地在提高了人脸视频的面部结构准确度的同时兼顾了运动的细粒度细节。
技术关键词
视频生成模型
视频生成方法
RGB特征
人脸
深度编码器
跨模态融合特征
音频编码器
图像编码器
全局平均池化
生成对抗网络
通道
注意力机制
面部结构
融合深度图
数据
关键点
系统为您推荐了相关专利信息
无线通讯设备
接口端子
显示屏
人脸识别摄像头
打印机
滤波
人脸识别模型
分量特征
小波变换处理
人脸识别模块
图像处理算法
电子设备
执行图像处理
计算机程序代码
芯片系统