基于深度感知融合的语音驱动人脸视频生成方法及装置

正文

推荐专利

申请号：CN202510311256

申请日期：2025-03-17

公开号：CN119832929B

公开日期：2025-07-22

类型：发明专利

摘要

一种基于深度感知融合的语音驱动人脸视频生成方法及装置，涉及计算机视觉与图像处理领域，方法包括：S1，获取具有音频片段和参考图像的人脸说话视频数据集，对数据集进行预处理后，分为训练数据集和测试数据集；S2，构建人脸视频生成模型；包括音频编码器、图像编码器、深度编码器、交叉参考模块和跨模态注意力模块；S3，使用训练数据集合训练人脸视频生成模型，得到训练好的人脸视频生成模型；S4，将测试数据集输入训练好的人脸视频生成模型，输出生成的结合音频和视频的人脸视频。本发明通过在人脸视频生成模型中引入交叉参考模块和跨模态注意力模块，有效地在提高了人脸视频的面部结构准确度的同时兼顾了运动的细粒度细节。

技术关键词

视频生成模型视频生成方法 RGB特征人脸深度编码器跨模态融合特征音频编码器图像编码器全局平均池化生成对抗网络通道注意力机制面部结构融合深度图数据关键点

系统为您推荐了相关专利信息

无线通讯设备（CIR）智能练功台

无线通讯设备接口端子显示屏人脸识别摄像头打印机

一种图生视频方法和装置

视频生成模型序列对象矩阵视频帧

一种抗逆光人脸识别系统及方法

滤波人脸识别模型分量特征小波变换处理人脸识别模块

一种基于AI的财务数据安全管理系统

访问特征财务系统私钥人脸数据库身份验证

图像处理方法、电子设备、存储介质及芯片系统

图像处理算法电子设备执行图像处理计算机程序代码芯片系统

基于深度感知融合的语音驱动人脸视频生成方法及装置

站点导航

APP 下载