摘要
本发明属于人工智能技术领域以及医疗健康领域,公开了一种音频驱动数字人的方法、装置、设备及存储介质,该方法包括:提取目标音频的音频特征;将所述音频特征输入第一预设模型中,得到所述目标音频对应的目标人脸3D关键点;融合所述目标人脸3D关键点和目标人物的人像信息,得到融合人脸信息;将所述融合人脸信息输入第二预设模型中,得到所述目标人物说所述目标音频的影像信息。本发明提供一种音频驱动数字人的方法、装置、设备及存储介质,解决了基于端对端模型的说话人视频合成方法所存在的问题。
技术关键词
融合人脸
关键点
音频特征
梅尔频率倒谱系数
轮廓特征
影像
面罩
音唇同步
输出模块
可读存储介质
三角形
人工智能技术
医疗健康
处理器
计算机设备
网格
存储器
系统为您推荐了相关专利信息
发音字典
梅尔频率倒谱系数
情感特征
建立语音识别模型
特征值
翻译语言
音画同步方法
多模态特征
语义向量
实时视频
智能化管理方法
Delaunay三角剖分
视频流
智能化管理系统
分布直方图