摘要
本发明公开了一种基于风格向量的语音驱动数字人面部视频生成方法,方法包括以下步骤:步骤S1:采集数据集;步骤S2:算法设计,网络整体结构由四部分组成,包括视频解耦模块、图像与音频编码模块、特征耦合模块、图像生成与视频编码模块;步骤S3:训练数据集;步骤S4:测试数据集。本发明通过图像与音频编码模块得到风格向量和音频特征,结合图像生成与视频编码模块,将风格向量和音频特征耦合后生成高质量的说话人面部视频。
技术关键词
视频生成方法
视频编码
风格
音频特征
音频编码器
面部
语音
模块
序列
图像编码器
网络
特征金字塔
判断人脸
数据
算法
系统为您推荐了相关专利信息
传感数据处理方法
软件架构
插件模块
业务处理单元
插件式
文本翻译方法
控件
文本翻译模型
大语言模型
数据
全景视频
运动状态信息
交互方法
虚拟现实设备
非暂态计算机可读存储介质