摘要
本发明公开了一种基于姿势对抗网络的人脸视频生成方法及系统,涉及图像处理技术领域,方法包括:构建人脸视频生成模型,包括图像编码器、音频编码器、头部运动预测模块、姿势编码器和解码器,所述人脸视频生成模型接收人脸图像和语音音频,生成人脸说话视频;获取训练数据集并对人脸视频生成模型进行预训练;构建唇型同步判别器作为判别器,对预训练人脸视频生成模型进行生成对抗训练;利用训练好的人脸视频生成模型实现人脸视频生成。本发明利用音频信号的动态特性对头部运动进行建模,并结合生成对抗网络与唇型同步判别器提高人脸视频的唇形同步精度,同时兼顾视频的逼真度,使得其更加真实、自然,从而为各种应用场景提供了更多的灵活性。
技术关键词
视频生成模型
双向长短期记忆网络
姿势
音频编码器
视频生成方法
音频特征
人脸图像提取
图像编码器
语音特征
序列
正面人脸
模块
视频生成系统
运动
系统为您推荐了相关专利信息
视频生成方法
语音
表情识别方法
情感分析模型
锚点
信道冲击响应
声学传感器
智能设备所处环境
声波发射装置
答案
矫正方法
穿戴式
智能腰带
姿态特征提取
特征金字塔网络
儿童智能水杯
水杯主体
电器元件
按键模块
加热模块