摘要
本申请实施例公开了一种视频生成模型的训练方法、装置、计算机设备、介质和程序产品,获取第一视频样本和第一文本样本;对第一文本样本、第一视频样本进行特征提取,得到第一文本特征样本、第一视频帧特征样本和第一视频特征样本;根据第一视频帧特征样本和第一文本特征样本,得到第一融合特征样本;根据第一融合特征样本和第一视频特征样本,通过初始视频生成模型进行生成,得到预测视频样本;根据预测视频样本和第一视频样本之间的差异,调整初始视频生成模型的模型参数,得到视频生成模型。训练得到的视频生成模型能够将视频特征作为中间媒介,并对其进行解码,得到视频,从而避免了先解码为图像再转换为视频的复杂过程,提高视频的生成速度。
技术关键词
视频生成模型
样本
视频帧特征
文本
融合特征
多模态
对象
参数
特征提取模型
特征提取单元
计算机设备
因子
运动
存储计算机程序
双向注意力机制
噪声
时序
可读存储介质
系统为您推荐了相关专利信息
融合特征
图像分类模型
样本
组织病理学图像
重构模块
数据清洗转换方法
大语言模型
图形用户界面访问
数据输入模块
数据输出模块
视频智能剪辑方法
图像
计算机程序指令
标签
像素点
应用程序编程接口
程序检测方法
物联网设备
固件
训练样本集