摘要
本申请涉及一种音频驱动视频生成方法、装置、计算机设备以及存储介质。包括:获取驱动音频,对驱动音频进行特征预处理确定所述驱动音频的目标音频特征;根据目标音频特征确定音频特征序列,将音频特征序列输入面部动画识别模型,确定面部动画离散概率分布序列;根据面部动画离散概率分布序列确定面部动画参数序列;将面部动画参数序列和目标肖像图片输入目标变分自编码器中,生成视频帧序列,并根据视频帧序列和驱动音频生成动态语音视频。上述方案,能够丰富动态语音视频中的数字人在发声过程中面部表情,提高人像面部说话的自然度和多样性,使得数字人在发声时可以通过面部表情表达驱动音频中的感情信息,以便于用户更好的理解音频内容。
技术关键词
音频特征
面部动作单元
动画
样本
编码器
序列
视频帧
视频生成装置
视频生成方法
深度学习模型训练
语音识别模型
参数
离散特征
计算机设备
姿态估计
动态
系统为您推荐了相关专利信息
文本
视觉
视频编码数据
自动驾驶方法
自动驾驶装置
升降驱动组件
细胞培养装置
位移检测组件
培养设备
传动组件
拷贝数
样本
基因组测序数据
磁珠纯化
无创产前胎儿
信息智能匹配方法
文本理解
智能理解技术
联合分布函数
度量
衍射成像方法
残差网络
相位恢复算法
分支
生成训练数据