摘要
本发明提供一种多源单图数字人生成方法、装置、设备及存储介质,涉及人工智能技术领域。该方法包括:获取待处理图像、获取驱动音频以及获取驱动视频;对所述待处理图像进行人脸检测处理,得到第一人脸图像;基于所述第一人脸图像和所述驱动音频,确定音频驱动结果;对所述驱动视频进行人脸检测处理,确定包含第二人脸图像的人脸视频;基于所述人脸视频和所述音频驱动结果进行融合处理,生成数字人的人脸图像视频。本发明实施例用以解决现有技术中生成的数字人脸部动作和说话音频不匹配,准确性较低的缺陷,实现通过结合待处理图像、驱动音频和驱动视频,能够生成音频和脸部动作具有高匹配度的单图数字人,且单图数字人具有多样性和灵活性。
技术关键词
视频
生成方法
图像
人脸动作
多尺度特征
非暂态计算机可读存储介质
三维人脸建模
音频特征
融合特征
生成多尺度
处理器
人工智能技术
计算机程序产品
坐标
面部
光流场
分辨率
生成装置
系统为您推荐了相关专利信息
可见光图像
设备缺陷检测
多模态
融合特征
性能预测模型
自动驾驶系统
车辆状态数据
数据记录功能
数据采集工具
实车数据
可见光图像
融合方法
视觉特征
交叉注意力机制
智能交通监控系统
医疗影像辅助诊断
病变检测系统
医疗影像数据
解码器
前馈神经网络