摘要
本发明公开了一种基于局部关键位置增强的数字人视频生成方法和系统,包括:获取单目视频并提取关键点序列;使用基于OPENGL的实时神经语义图像绘制方式对关键点序列进行实时绘制,得到神经语义图像序列和眼睛注视图像序列;在包含生成器和图像质量判别器的StyleUNet网络中引入用于局部特征判别真伪的局部判别器来构建多判别器联合优化的对抗学习框架,并构建正常样本和困难样本对对抗学习框架进行二阶段的对抗训练,训练结束后生成器作为视频生成模型;利用视频生成模型基于神经语义图像序列、眼睛注视图像序列、以及引入的随机噪声连续生成数字人图像,并为连续的数字人图像添加音频得到高保真、时序连续地生成数字人视频。
技术关键词
关键点
视频生成模型
视频生成方法
图像
序列
感兴趣
语义
生成数字人
重定向方法
视频帧
随机噪声
矩阵
样本
眼睛
框架
视频生成系统
阶段
滤波器算法
基准