摘要
本公开实施例涉及一种视觉配音方法、装置、设备及介质,该方法包括:获取目标音频以及第一视频;获取第一帧图像中目标对象的头部姿态信息和面部信息,以及第一帧图像中目标区域的区域信息;第一帧图像是第一视频中的帧图像;目标区域是第一帧图像中除目标对象的嘴部区域之外的区域;基于目标音频、第一帧图像中目标对象的头部姿态信息和面部信息,生成与第一帧图像对应的第二帧图像中目标对象的口型信息;第二帧图像是待生成的第二视频中的帧图像;基于第一帧图像中目标区域的区域信息、第二帧图像中目标对象的口型信息以及目标音频,生成第二视频。本公开实施例可提升口型生成的准确性和自然感,提升第一视频的配音视频的视觉观感。
技术关键词
头部姿态信息
图像
对象
配音方法
面部识别模型
音频特征
交叉注意力机制
视频
生成对抗网络
视觉
序列
配音装置
存储装置
计算机程序产品
电子设备
语义
时序
系统为您推荐了相关专利信息
道路巡检方法
精密时间协议
云端
三次样条插值
数据
橡胶件
三维表面轮廓
度检测方法
疲劳寿命预测
光学图像数据
深度学习预测
十字形结构
像素
条件生成对抗网络
图像评估
旅行产品
人工智能服务
对象
语音
计算机程序产品