摘要
本发明公开一种优化生成唇形驱动视频效果的方法、装置及存储介质,其中,优化生成唇形驱动视频效果的方法包括:将语音文件、视频文件输入至唇形同步深度学习模型,输出语音视频,语音视频中数字人唇形动态效果与语音文件中文字内容相匹配;所述唇形同步深度学习模型的训练过程包括:针对训练数据样本集进行数据预处理,基于训练数据样本集中的目标图target img随机选取与目标图target img之间的角度差异被限制在设定范围内的参考图Ref img;将参考图Ref img、目标图target img和mask图作为唇形同步深度学习模型的输入进行训练。本发明的一种优化生成唇形驱动视频效果的方法,在进行模型训练时能抑制过拟合,鲁棒性更高;同时,可以更快的训练出模型。
技术关键词
视频
计算机可执行程序
语音
深度学习模型训练
计算机可读记录介质
样本
数据
感知损失函数
人脸
像素
地标
多尺度
处理器
时序
存储器
鲁棒性
电子设备
模块
系统为您推荐了相关专利信息
拥堵分析方法
交通流量统计
视频分析
车道
数据处理模块
深度学习模型
异常状态
管理方法
管理设备
人工智能模型
检查点
模型优化方法
数据
非易失性计算机可读存储介质
计算机程序指令
光谱特征提取
反射率图像
像素点
伪装识别方法
彩色图像