基于图片关键帧和运动向量融合的视频理解生成方法

正文

推荐专利

申请号：CN202411935057

申请日期：2024-12-26

公开号：CN119992406A

公开日期：2025-05-13

类型：发明专利

摘要

本发明公开了一种基于图片关键帧和运动向量融合的视频理解生成方法，包括如下步骤：步骤一，使用场景检测算法从视频中提取关键帧；步骤二，计算运动向量；步骤三，在步骤二完成运动向量建模之后，对视频数据进行Moving tokenizer编码和解码；步骤四，得到图片的token实现图片离散化token；步骤五，实现对视频理解或生成。本发明的基于图片关键帧和运动向量融合的视频理解生成方法，通过步骤一至步骤五的设置，便可有效的实现通过提取关键帧的方式来完成对视频的理解或生成。

技术关键词

运动向量关键帧生成方法视频高斯金字塔图片图像金字塔编码层级像素点解码彩色图像场景文本算法分辨率数据

基于图片关键帧和运动向量融合的视频理解生成方法

站点导航

APP 下载