基于图片关键帧和运动向量融合的视频理解生成方法

AITNT
正文
推荐专利
基于图片关键帧和运动向量融合的视频理解生成方法
申请号:CN202411935057
申请日期:2024-12-26
公开号:CN119992406A
公开日期:2025-05-13
类型:发明专利
摘要
本发明公开了一种基于图片关键帧和运动向量融合的视频理解生成方法,包括如下步骤:步骤一,使用场景检测算法从视频中提取关键帧;步骤二,计算运动向量;步骤三,在步骤二完成运动向量建模之后,对视频数据进行Moving tokenizer编码和解码;步骤四,得到图片的token实现图片离散化token;步骤五,实现对视频理解或生成。本发明的基于图片关键帧和运动向量融合的视频理解生成方法,通过步骤一至步骤五的设置,便可有效的实现通过提取关键帧的方式来完成对视频的理解或生成。
技术关键词
运动向量 关键帧 生成方法 视频 高斯金字塔 图片 图像金字塔 编码 层级 像素点 解码 彩色图像 场景 文本 算法 分辨率 数据
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号