摘要
本发明实施例提供了一种数据的处理方法、装置、电子设备及存储介质,涉及计算机视觉技术领域,所述方法包括:获取视频生成模型以及针对视频生成模型的训练数据,训练数据包括音视频;对音视频进行特征提取,获得音视频对应的驱动信号以及音视频中每帧驱动图像对应的采样点的原始坐标;将各个采样点对应的原始坐标与驱动信号输入视频生成模型进行模型训练,获得判别器对应的第一损失函数以及动作编码器和外观编码器对应的第二损失函数;基于第一损失函数以及第二损失函数对视频生成模型进行参数调优,获得训练完成的视频生成模型,从而提升了模型处理的准确性且能够更加全面地捕捉说话者的面部动态,提高各自模态的驱动效果。
技术关键词
视频生成模型
音视频
驱动信号
采样点
音频特征
编码器
多维特征向量
坐标
汉字
颜色
计算机视觉技术
拼音
通信接口
图像
参数
数据
电子设备
处理器
系统为您推荐了相关专利信息
锂离子电池容量
异常识别方法
储能锂离子电池
电池单体
聚类算法
监控分析系统
音频
音视频
优化卡尔曼滤波
协方差矩阵
多头注意力机制
视频生成方法
序列
非易失性计算机可读存储介质
视频生成模型
道路路面
采样点
深度学习模型
识别方法
开放街道地图
图像处理模型
图像处理方法
画面
序列
音频特征提取