摘要
本发明公开了一种基于音频驱动的人脸对话生成模型的人脸视频生成方法。方法包括:建立唇音同步判别网络和基于质量注意力的音频驱动唇形网络;使用唇音同步训练集对网络进行训练,根据唇音同步判别网络的判别损失函数构建基于质量注意力的音频驱动唇形网络的整体损失函数,直至整体损失函数收敛完成训练;根据待回复文字或音频获得回复音频;将回复音频以及待生成人物的人脸图像输入训练完成的网络中,输出当前人物在读取当前回复音频时的人脸视频,最终在显示器上显示。本发明方法有效改善了唇形生成的同步效果和整体人脸的图像质量,并能够与客户进行对话,旨在生成具有自然头部运动、唇音同步效果良好的真实人脸视频。
技术关键词
注意力机制
对话生成模型
人脸
视频生成方法
音频编码器
对话系统
图像编码器
训练集
更新网络参数
解码器
自然语言
重构
梯度下降法
对抗性
系统为您推荐了相关专利信息
图像生成模型
文本
图像生成方法
生成噪声
噪声图像
报警识别方法
门控循环单元
皮尔逊相关系数
多元时序数据
变量
注意力机制
金字塔网络
芯片表面缺陷检测
分辨率
通道