摘要
本发明提供一种视频生成模型训练方法、推理方法及装置,包括将标签噪声注入至由任一视频样本数据转换成的第一隐空间变量中得到第二隐空间变量;对第二隐空间变量进行时间因果交叉注意力计算和视觉交叉注意力计算,以根据计算到的第三隐空间变量确定预测噪音;根据预测噪音与标签噪声计算的损失值,优化视频生成模型的模型参数。本发明在视频生成模型的训练推理过程中,通过在注意力机制中采用时间因果交叉注意力计算和视觉交叉注意力计算,来处理隐空间变量中的数据信息和空间信息,在几乎不影响视频生成质量的前提下,大幅减少了数据计算量和搬运量,有效地提升了视频生成模型的信息处理效率。
技术关键词
视频生成模型
变量
推理方法
视觉
时序
标签
噪声识别
推理装置
解码器
注意力机制
数据
训练装置
信息处理
样本
处理单元
参数
像素
系统为您推荐了相关专利信息
水力旋流器
多准则决策分析
响应面模型
综合评价指数
优化设计方法
稳态视觉诱发电位
信号特征
采集脑电信号
独立成分分析
脑机接口
传感控制系统
光谱传感器模块
环境光照强度
低功耗
视觉传感器