摘要
本发明公开了一种说话人脸视频生成方法、装置、系统及介质,方法包括:获取源人脸图片和源音频数据;提取源人脸图片的人脸特征参数,并提取源音频数据中音频特征;将音频特征输入到训练好的三维特征生成模型中,根据模型输出结果和人脸特征参数融合生成三维人脸图像集;将源人脸图片和三维人脸图像集输入到训练好的视频帧生成模型中,输出说话人脸图像集;对说话人脸图像集和源音频数据进行对应帧的结合,得到说话人脸视频。通过基于音频数据驱动的说话人脸视频生成方式,利用音频特征和源人脸图像重构生成拟合度高的三维人脸图像,使得无需拍摄真人视频即可生成自然逼真的说话人脸视频,从而提高说话人脸视频生成的效率与视觉效果。
技术关键词
三维人脸图像
视频生成方法
人脸图片
音频特征
非易失性计算机可读存储介质
计算机可执行指令
人脸特征
特征金字塔
三维人脸重构
视频帧
参数识别模型
数据
视频生成系统
视频生成装置
长短期记忆网络
语音识别模型
系统为您推荐了相关专利信息
三维人脸模型
表情特征提取
三维人脸重建
音频特征提取
顶点
情感反馈
视频生成方法
广告
眼动轨迹
面部表情特征
运动特征
融合特征
视频帧
全景视频生成方法
文本
音视频
多模态融合深度学习
大数据分析技术
智能监控设备
深度学习模型