摘要
本发明公开了一种语音驱动照片数字人三维人像表情和手势同步的数字人视频生成方法,集成了语音到面部表情系数序列的自动生成、语音到头部姿态运动系数序列的自动生成功能、语音到手势序列的自动生成,使用三维人像系数做为中间值把语音中的表情特征、头部运动特征和手势特征同步渲染到三维人像上,根据三维人像映射成二维图像作为视频帧,同时引入了图像增强模型,对视频帧进行增强,将增强的视频帧写入视频中并融合音频和视频,最终生成音频驱动的同步视频。使生成的视频同时带有面部表情、头部运动姿态和手势,具有同步性、身份一致性、面部更加清晰和自然的数字人视频。
技术关键词
视频生成方法
图像增强模型
序列
语音
照片
生成表情
训练判别模型
视频帧
音频编码器
面部
手势特征
表情特征
运动特征
残差网络
模块
系统为您推荐了相关专利信息
管理方法
时间序列预测技术
企业
数据
人力资源规划
绘画
建议生成方法
图像特征提取模型
智能绘图
线条特征