摘要
本申请提供一种语音驱动视频合成方法、设备及存储介质,涉及计算机视觉与人工智能技术领域。该方法包括:根据原始说话视频中的多帧原始图像,分别确定多帧人脸区域图像以及对应的面部身份特征图像;采用人脸标准化模型,根据每帧面部身份特征图像,对对应的人脸区域图像进行身份特征和口型动作的解耦处理,输出对应的闭嘴人脸区域图像;采用口型合成模型,根据多帧闭嘴人脸区域图像,以及音频数据,生成多帧说话人脸区域图像;对多帧说话人脸区域图像和多帧原始图像进行融合处理,得到音频数据匹配的目标说话视频。消除原始口型的干扰,说话口型和音频数据的同步质量更高,进而显著提升了目标说话视频中口型与音频数据的同步性。
技术关键词
人脸
图像
视频
样本
身份
真实面部
音频
高清
语音
数据
人工智能技术
计算机视觉
处理器
同步性
可读存储介质
存储器
参数
尺寸
系统为您推荐了相关专利信息
短视频推荐方法
兴趣画像
内容库
注意力机制
深度神经网络学习
控制无人机
游戏音乐
指令
通信装置
图像采集装置
医学图像生成方法
肿瘤
编码器结构
解码器结构
新颖方法
识别方法
姿态估计
车站监控
热力图
非暂态计算机可读存储介质
通讯报警系统
监控主机
语音
隐私保护模块
云端服务器