音频驱动数字人的方法、装置、设备及存储介质

正文

推荐专利

申请号：CN202510253097

申请日期：2025-03-03

公开号：CN120220719A

公开日期：2025-06-27

类型：发明专利

摘要

本发明属于人工智能技术领域以及医疗健康领域，公开了一种音频驱动数字人的方法、装置、设备及存储介质，该方法包括：提取目标音频的音频特征；将所述音频特征输入第一预设模型中，得到所述目标音频对应的目标人脸3D关键点；融合所述目标人脸3D关键点和目标人物的人像信息，得到融合人脸信息；将所述融合人脸信息输入第二预设模型中，得到所述目标人物说所述目标音频的影像信息。本发明提供一种音频驱动数字人的方法、装置、设备及存储介质，解决了基于端对端模型的说话人视频合成方法所存在的问题。

技术关键词

融合人脸关键点音频特征梅尔频率倒谱系数轮廓特征影像面罩音唇同步输出模块可读存储介质三角形人工智能技术医疗健康处理器计算机设备网格存储器

系统为您推荐了相关专利信息

一种术前语音识别与交互评估方法

发音字典梅尔频率倒谱系数情感特征建立语音识别模型特征值

三维场景在线重建方法、装置、设备及存储介质

图像坐标系点云门控循环单元融合特征

基于多模态大模型的实时视频翻译与音画同步方法及系统

翻译语言音画同步方法多模态特征语义向量实时视频

一种姿态识别方法及装置

关键点姿态识别方法深度值人体手部模式

一种电力施工进度智能化管理方法及系统

智能化管理方法 Delaunay三角剖分视频流智能化管理系统分布直方图

音频驱动数字人的方法、装置、设备及存储介质

站点导航

APP 下载