基于深度感知融合的语音驱动人脸视频生成方法及装置

AITNT
正文
推荐专利
基于深度感知融合的语音驱动人脸视频生成方法及装置
申请号:CN202510311256
申请日期:2025-03-17
公开号:CN119832929B
公开日期:2025-07-22
类型:发明专利
摘要
一种基于深度感知融合的语音驱动人脸视频生成方法及装置,涉及计算机视觉与图像处理领域,方法包括:S1,获取具有音频片段和参考图像的人脸说话视频数据集,对数据集进行预处理后,分为训练数据集和测试数据集;S2,构建人脸视频生成模型;包括音频编码器、图像编码器、深度编码器、交叉参考模块和跨模态注意力模块;S3,使用训练数据集合训练人脸视频生成模型,得到训练好的人脸视频生成模型;S4,将测试数据集输入训练好的人脸视频生成模型,输出生成的结合音频和视频的人脸视频。本发明通过在人脸视频生成模型中引入交叉参考模块和跨模态注意力模块,有效地在提高了人脸视频的面部结构准确度的同时兼顾了运动的细粒度细节。
技术关键词
视频生成模型 视频生成方法 RGB特征 人脸 深度编码器 跨模态融合特征 音频编码器 图像编码器 全局平均池化 生成对抗网络 通道 注意力机制 面部结构 融合深度图 数据 关键点
系统为您推荐了相关专利信息
1
无线通讯设备(CIR)智能练功台
无线通讯设备 接口端子 显示屏 人脸识别摄像头 打印机
2
一种图生视频方法和装置
视频生成模型 序列 对象 矩阵 视频帧
3
一种抗逆光人脸识别系统及方法
滤波 人脸识别模型 分量特征 小波变换处理 人脸识别模块
4
一种基于AI的财务数据安全管理系统
访问特征 财务系统 私钥 人脸数据库 身份验证
5
图像处理方法、电子设备、存储介质及芯片系统
图像处理算法 电子设备 执行图像处理 计算机程序代码 芯片系统
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号