多源单图数字人生成方法、装置、设备及存储介质

正文

推荐专利

申请号：CN202510667558

申请日期：2025-05-22

公开号：CN120747309A

公开日期：2025-10-03

类型：发明专利

摘要

本发明提供一种多源单图数字人生成方法、装置、设备及存储介质，涉及人工智能技术领域。该方法包括：获取待处理图像、获取驱动音频以及获取驱动视频；对所述待处理图像进行人脸检测处理，得到第一人脸图像；基于所述第一人脸图像和所述驱动音频，确定音频驱动结果；对所述驱动视频进行人脸检测处理，确定包含第二人脸图像的人脸视频；基于所述人脸视频和所述音频驱动结果进行融合处理，生成数字人的人脸图像视频。本发明实施例用以解决现有技术中生成的数字人脸部动作和说话音频不匹配，准确性较低的缺陷，实现通过结合待处理图像、驱动音频和驱动视频，能够生成音频和脸部动作具有高匹配度的单图数字人，且单图数字人具有多样性和灵活性。

技术关键词

视频生成方法图像人脸动作多尺度特征非暂态计算机可读存储介质三维人脸建模音频特征融合特征生成多尺度处理器人工智能技术计算机程序产品坐标面部光流场分辨率生成装置

系统为您推荐了相关专利信息

基于Mamba架构的视频识别与分割方法、存储介质及设备

视频识别分割方法空洞分辨率动作特征

一种基于多模态的设备缺陷检测方法及设备

可见光图像设备缺陷检测多模态融合特征性能预测模型

一种DSSAD的数据记录功能测试方法和系统

自动驾驶系统车辆状态数据数据记录功能数据采集工具实车数据

一种基于T-WavKAN和C-Corr的红外与可见光图像融合方法

可见光图像融合方法视觉特征交叉注意力机制智能交通监控系统

一种面向医疗影像辅助诊断的可解释病变检测系统

医疗影像辅助诊断病变检测系统医疗影像数据解码器前馈神经网络

多源单图数字人生成方法、装置、设备及存储介质

站点导航

APP 下载