一种基于风格向量的语音驱动数字人面部视频生成方法

AITNT
正文
推荐专利
一种基于风格向量的语音驱动数字人面部视频生成方法
申请号:CN202410775608
申请日期:2024-06-17
公开号:CN118632086B
公开日期:2024-11-12
类型:发明专利
摘要
本发明公开了一种基于风格向量的语音驱动数字人面部视频生成方法,方法包括以下步骤:步骤S1:采集数据集;步骤S2:算法设计,网络整体结构由四部分组成,包括视频解耦模块、图像与音频编码模块、特征耦合模块、图像生成与视频编码模块;步骤S3:训练数据集;步骤S4:测试数据集。本发明通过图像与音频编码模块得到风格向量和音频特征,结合图像生成与视频编码模块,将风格向量和音频特征耦合后生成高质量的说话人面部视频。
技术关键词
视频生成方法 视频编码 风格 音频特征 音频编码器 面部 语音 模块 序列 图像编码器 网络 特征金字塔 判断人脸 数据 算法
系统为您推荐了相关专利信息
1
一种基于深度学习的多模型综合效果器预设生成方法
综合效果器 吉他 分类神经网络 特征值 生成方法
2
基于分子动力学的盐浓度聚电解质凝胶活度系数方法
系数方法 聚电解质 分子 并行模拟器 金刚石模型
3
基于插件式软件架构的传感数据处理方法
传感数据处理方法 软件架构 插件模块 业务处理单元 插件式
4
基于大模型的文本翻译方法、装置、电子设备及存储介质
文本翻译方法 控件 文本翻译模型 大语言模型 数据
5
一种基于运动载具驱动的全景场景漫游交互方法及系统
全景视频 运动状态信息 交互方法 虚拟现实设备 非暂态计算机可读存储介质
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号