摘要
本发明提供了一种基于网格图的视频描述生成方法,包括:S101、获取原始视频V;S102、从获取的原始视频V中等间距抽取k帧第一图像;其中,k应当满足被开平方;每一帧第一图像的大小为W×H×C;S103、构建一张大小为W×H×C的空图I,将空图I划分为个大小为W×H×C的块;S104、将k帧第一图像由左至右、由上至下,顺序置于空图I的k个大小为W×H×C的块中,得到大小为W×H×C的第二图像;S105、将得到大小为W×H×C的第二图像调整成大小为T×T×C的第三图像;S106、将大小为T×T×C的第三图像和生成类文本一起输入到LVLM模型中,输出生成的视频描述。本发明减少视频描述生成的计算复杂度,保证了视频描述的生成质量。
技术关键词
生成方法
视频
图像
计算机执行指令
光流特征
计算机存储介质
生成系统
深度学习模型
网格
间距
文本
复杂度
通道
坐标