摘要
本发明提供一种高保真高同步的说话人脸生成模型训练方法及系统,应用于图像处理技术领域,其中,上述方法包括:获取待驱动音频、位姿图像以及参考图像候选集;基于位姿图像与图像候选集进行难例挖掘,得到位姿图像对应的身份参考图像,其中,身份参考图像与位姿图像之间的嘴部匹配度最低;将身份参考图像、位姿图像以及待驱动音频输入至说话人脸生成模型,得到说话人脸生成模型输出的生成说话人脸图像,其中,说话人脸生成模型是基于生成对抗网络模型的;基于目标分辨率人脸图像指导的损失函数,对生成说话人脸图像模型进行监督,以训练说话人脸生成模型;通过本发明能够生成同时具有保真度和同步性的说话人脸图像。
技术关键词
生成模型训练方法
生成对抗网络模型
分辨率
音频特征提取
身份
生成人脸图像
图像编码器
非暂态计算机可读存储介质
人脸关键点检测
模型训练系统
矩阵
处理器
图像处理技术
计算机程序产品
系统为您推荐了相关专利信息
连续小波变换
深度学习模型
卷积神经网络模型
计算机设备
样本
生成系统
标记单元
Softmax函数
人脸身份
语义
动作检测方法
空中无人机
检测无人机
协方差矩阵
记忆
数据防护方法
数据访问权限
身份
生成密钥
云存储服务器