音频驱动视频生成方法、装置、计算机设备以及存储介质

正文

推荐专利

申请号：CN202410880137

申请日期：2024-07-02

公开号：CN118413722B

公开日期：2024-10-18

类型：发明专利

摘要

本申请涉及一种音频驱动视频生成方法、装置、计算机设备以及存储介质。包括：获取驱动音频，对驱动音频进行特征预处理确定所述驱动音频的目标音频特征；根据目标音频特征确定音频特征序列，将音频特征序列输入面部动画识别模型，确定面部动画离散概率分布序列；根据面部动画离散概率分布序列确定面部动画参数序列；将面部动画参数序列和目标肖像图片输入目标变分自编码器中，生成视频帧序列，并根据视频帧序列和驱动音频生成动态语音视频。上述方案，能够丰富动态语音视频中的数字人在发声过程中面部表情，提高人像面部说话的自然度和多样性，使得数字人在发声时可以通过面部表情表达驱动音频中的感情信息，以便于用户更好的理解音频内容。

技术关键词

音频特征面部动作单元动画样本编码器序列视频帧视频生成装置视频生成方法深度学习模型训练语音识别模型参数离散特征计算机设备姿态估计动态

系统为您推荐了相关专利信息

基于多模态大模型的自动驾驶模型、训练和自动驾驶方法

文本视觉视频编码数据自动驾驶方法自动驾驶装置

一种分气结构、细胞培养装置及培养设备

升降驱动组件细胞培养装置位移检测组件培养设备传动组件

无创产前胎儿染色体检测方法、装置及试剂盒

拷贝数样本基因组测序数据磁珠纯化无创产前胎儿

一种基于文本理解的质量问题信息智能匹配方法及系统

信息智能匹配方法文本理解智能理解技术联合分布函数度量

基于双分支密集残差网络的叠层衍射成像方法及系统

衍射成像方法残差网络相位恢复算法分支生成训练数据

音频驱动视频生成方法、装置、计算机设备以及存储介质

站点导航

APP 下载