一种说话人脸视频生成方法、装置、系统及介质

正文

推荐专利

申请号：CN202410846432

申请日期：2024-06-27

公开号：CN118555448A

公开日期：2024-08-27

类型：发明专利

摘要

本发明公开了一种说话人脸视频生成方法、装置、系统及介质，方法包括：获取源人脸图片和源音频数据；提取源人脸图片的人脸特征参数，并提取源音频数据中音频特征；将音频特征输入到训练好的三维特征生成模型中，根据模型输出结果和人脸特征参数融合生成三维人脸图像集；将源人脸图片和三维人脸图像集输入到训练好的视频帧生成模型中，输出说话人脸图像集；对说话人脸图像集和源音频数据进行对应帧的结合，得到说话人脸视频。通过基于音频数据驱动的说话人脸视频生成方式，利用音频特征和源人脸图像重构生成拟合度高的三维人脸图像，使得无需拍摄真人视频即可生成自然逼真的说话人脸视频，从而提高说话人脸视频生成的效率与视觉效果。

技术关键词

三维人脸图像视频生成方法人脸图片音频特征非易失性计算机可读存储介质计算机可执行指令人脸特征特征金字塔三维人脸重构视频帧参数识别模型数据视频生成系统视频生成装置长短期记忆网络语音识别模型

系统为您推荐了相关专利信息

数字人驱动方法、模型训练方法、装置及电子设备

三维人脸模型表情特征提取三维人脸重建音频特征提取顶点

多模态谣言鉴别方法及系统、电子设备和存储介质

谣言消息识别系统图像多模态

一种基于情感反馈的文本驱动广告视频生成方法

情感反馈视频生成方法广告眼动轨迹面部表情特征

全景视频生成方法、装置、电子设备及可读存储介质

运动特征融合特征视频帧全景视频生成方法文本

一种音视频传输质量的监控方法、系统、设备及存储介质

音视频多模态融合深度学习大数据分析技术智能监控设备深度学习模型

一种说话人脸视频生成方法、装置、系统及介质

站点导航

APP 下载