摘要
本申请公开一种基于音频驱动的数字人视频生成方法和系统,其方法包括:S1:获取输入的音频数据,对音频进行音频预处理以及音频提取特征,得到反映音频内容、情感和节奏的音频特征向量;S2:对输入的人脸图片进行图片预处理以及图片提取特征,得到人脸外观特征;S3:将所述音频特征和人脸外观特征映射为表情参数和动作参数;S4:基于输入的人脸图片和生成的表情参数、动作参数以及音频信息,生成完整的数字人视频。本申请仅需人脸图片作为基础素材,结合音频信息即可生成数字人视频,摆脱了对一定时长形象视频的依赖,极大地降低了数字人视频生成的门槛,而且采用新的技术方案让表情更真实。
技术关键词
视频生成方法
人脸图片特征提取
生成数字人
参数
视频生成系统
音频特征提取
关键特征点
机器可读指令
表情特征
动作特征
时序特征
人脸检测模型
人脸特征提取
处理器