摘要
本申请涉及计算机技术领域,提供了一种视频生成模型的训练方法、装置、电子设备及存储介质。该方法包括:将各个训练样本输入视频生成模型,对各个训练视频帧、时间步进行特征嵌入,得到训练视频帧的特征图和时间步的特征图;将训练视频帧的特征图和时间步的特征图输入视频生成模型的多个多层感知机多次迭代扩散处理并进行解码得到预测视频的各个视频帧;基于预测视频的各个视频帧和训练视频的各个训练视频帧计算视频生成模型的损失值,并根据损失值更新视频生成模型的参数。解决了现有技术中基于注意力机制的扩散模型训练耗费大量计算资源且训练速度慢的问题,实现以较低计算成本生成高质量的视觉内容。
技术关键词
视频生成模型
多层感知机
视频帧
混合层
融合特征
时序
非线性
训练集
文本
解码器
电子设备
噪声
可读存储介质
处理器
注意力机制
解码模块
训练装置
编码模块
系统为您推荐了相关专利信息
自动校准方法
校准设备
万用表
空间金字塔
神经网络模型
智能用电设备
功耗分析方法
工况参数
功耗分析装置
多通道
价格分析方法
数据处理模型
关联特征数据
监督学习方法
电力