一种基于风格向量的语音驱动数字人面部视频生成方法

正文

推荐专利

申请号：CN202410775608

申请日期：2024-06-17

公开号：CN118632086B

公开日期：2024-11-12

类型：发明专利

摘要

本发明公开了一种基于风格向量的语音驱动数字人面部视频生成方法，方法包括以下步骤：步骤S1：采集数据集；步骤S2：算法设计，网络整体结构由四部分组成，包括视频解耦模块、图像与音频编码模块、特征耦合模块、图像生成与视频编码模块；步骤S3：训练数据集；步骤S4：测试数据集。本发明通过图像与音频编码模块得到风格向量和音频特征，结合图像生成与视频编码模块，将风格向量和音频特征耦合后生成高质量的说话人面部视频。

技术关键词

视频生成方法视频编码风格音频特征音频编码器面部语音模块序列图像编码器网络特征金字塔判断人脸数据算法

系统为您推荐了相关专利信息

一种基于深度学习的多模型综合效果器预设生成方法

综合效果器吉他分类神经网络特征值生成方法

基于分子动力学的盐浓度聚电解质凝胶活度系数方法

系数方法聚电解质分子并行模拟器金刚石模型

基于插件式软件架构的传感数据处理方法

传感数据处理方法软件架构插件模块业务处理单元插件式

基于大模型的文本翻译方法、装置、电子设备及存储介质

文本翻译方法控件文本翻译模型大语言模型数据

一种基于运动载具驱动的全景场景漫游交互方法及系统

全景视频运动状态信息交互方法虚拟现实设备非暂态计算机可读存储介质

一种基于风格向量的语音驱动数字人面部视频生成方法

站点导航

APP 下载