摘要
本公开提出一种视频生成模型的训练方法、视频生成方法、装置及电子设备,其中,该训练方法包括:对参考图像进行特征提取,得到第一多模态特征信息;对驱动视频进行特征提取,得到第二多模态特征信息;根据第一多模态特征信息和第二多模态特征信息生成控制条件特征信息;根据参考图像和驱动视频生成原始噪声,并对参考图像进行编码处理,得到参考图像的嵌入向量;根据控制条件特征信息、原始噪声和参考图像的嵌入向量进行噪声预测,得到符合控制条件特征信息的预测噪声;根据原始噪声和预测噪声的差异,对视频生成模型的参数进行调整,得到训练后的视频生成模型。由此,通过利用多模态条件控制信息,更能确保生成动作的稳定性。
技术关键词
视频生成模型
多模态特征
深度特征信息
噪声预测
融合特征
编码特征
骨骼特征
编码器
注意力
图像
视频生成方法
动作特征
适配器
生成特征
运动控制模块
特征提取器
系统为您推荐了相关专利信息
视频插帧方法
多模态特征融合
残差学习
嵌入特征
事件流数据
阻抗校准方法
高频磁环
动态
融合特征
双向注意力机制
融合多尺度特征
实时检测方法
网络
模块
实时图像
协同感知方法
协同感知系统
点云特征
卷积神经网络提取
融合特征