摘要
本发明公开一种基于大模型的视频生成方法,提出一种包括基于变分自编码器的视频压缩网络和基于深度学习的用户行为模型在内的视频生成模型,通过视频压缩网络的编码器降低视频数据的时间和空间维度,并将视频切分成时空潜在patches;通过基于深度学习的用户行为模型对视频数据进行特征提取,生成代表视频内容的嵌入向量;再利用视频压缩网络的解码器恢复出带有连续视频帧的重构视频,从而生成高分辨率、高质量视频。本发明能够高效处理大规模视频数据,同时生成具有高分辨率、高帧率的高质量视频内容。
技术关键词
视频生成方法
视频生成模型
视频压缩
编码器
生成高分辨率
解码器
生成代表
编码向量
视频生成装置
数据
网络
电子设备
深度学习模型
注意力机制
程序
处理器
多阶段
重构
系统为您推荐了相关专利信息
建筑物提取方法
高寒山区
融合多尺度特征
注意力
阴影特征
退化特征
动车组齿轮箱
剩余寿命预测模型
特征提取网络
数据
强化学习模型
强化学习算法
医学影像分割方法
教师
编码器
归一化模块
足底压力数据
深度学习网络模型
序列
运动意图