一种基于音频驱动的数字人视频生成方法和系统

正文

推荐专利

申请号：CN202510770096

申请日期：2025-06-10

公开号：CN120602740A

公开日期：2025-09-05

类型：发明专利

摘要

本申请公开一种基于音频驱动的数字人视频生成方法和系统，其方法包括：S1:获取输入的音频数据，对音频进行音频预处理以及音频提取特征，得到反映音频内容、情感和节奏的音频特征向量；S2:对输入的人脸图片进行图片预处理以及图片提取特征，得到人脸外观特征；S3:将所述音频特征和人脸外观特征映射为表情参数和动作参数；S4:基于输入的人脸图片和生成的表情参数、动作参数以及音频信息，生成完整的数字人视频。本申请仅需人脸图片作为基础素材，结合音频信息即可生成数字人视频，摆脱了对一定时长形象视频的依赖，极大地降低了数字人视频生成的门槛，而且采用新的技术方案让表情更真实。

技术关键词

视频生成方法人脸图片特征提取生成数字人参数视频生成系统音频特征提取关键特征点机器可读指令表情特征动作特征时序特征人脸检测模型人脸特征提取处理器

一种基于音频驱动的数字人视频生成方法和系统

站点导航

APP 下载