摘要
本发明公开了一种基于图片关键帧和运动向量融合的视频理解生成方法,包括如下步骤:步骤一,使用场景检测算法从视频中提取关键帧;步骤二,计算运动向量;步骤三,在步骤二完成运动向量建模之后,对视频数据进行Moving tokenizer编码和解码;步骤四,得到图片的token实现图片离散化token;步骤五,实现对视频理解或生成。本发明的基于图片关键帧和运动向量融合的视频理解生成方法,通过步骤一至步骤五的设置,便可有效的实现通过提取关键帧的方式来完成对视频的理解或生成。
技术关键词
运动向量
关键帧
生成方法
视频
高斯金字塔
图片
图像金字塔
编码
层级
像素点
解码
彩色图像
场景
文本
算法
分辨率
数据