摘要
本发明提供一种音频驱动的口唇同步方法、装置、设备及介质,方法包括:获取人脸真实图像、音频数据和人脸参考图像;将人脸真实图像、音频数据和人脸参考图像输入至口唇同步视频生成模型中,得到口唇同步视频生成模型输出的口唇同步视频;其中,口唇同步视频生成模型是根据音频样本、人脸参考样本以及对应的口唇同步视频样本训练得到的,口唇同步视频生成模型是根据对输入的口唇同步视频样本进行正向加噪,并结合音频样本和人脸参考样本,对正向加噪得到的噪声序列进行反向去噪训练得到的。本发明通过结合多模态特征和去噪机制,生成口唇动作精准同步、面部细节丰富、整体视觉效果自然的口唇同步视频。
技术关键词
视频生成模型
样本
音频
人脸
序列
图像
同步方法
残差网络
扩散层
噪声
交叉注意力机制
视频帧
非暂态计算机可读存储介质
编码特征
多模态特征
数据获取模块
处理器
系统为您推荐了相关专利信息
神经网络模型
数据分布
特征金字塔网络
增量式学习
预训练模型
强化学习模型
特征点
标识信息生成方法
全球定位系统数据
标记
多模态信息融合
样本
构建系统
智能管理模块
关节点
负荷短期预测方法
灰色关联度
节点
代表
皮尔逊相关系数