摘要
本发明提供一种基于视觉语言模型的视频分析方法,该方法包括:获取待分析视频;遍历所述待分析视频中的各视频帧,在当前遍历的视频帧为关键帧的情况下,将所述关键帧和与所述关键帧对应的各非关键帧的第一识别结果输入视觉语言模型中,得到所述视觉语言模型输出的所述关键帧的第二识别结果,所述第一识别结果为在确定所述非关键帧的图像类型后,将所述非关键帧输入所述图像类型对应的图像识别模型中得到的非关键帧的识别结果,所述图像识别模型为基于所述图像类型对应的第一样本图像和所述第一样本图像的识别结果标签训练得到的;基于所述第二识别结果,确定所述待分析视频的视频分析结果。本发明能够提高视觉语言模型的视频分析结果的准确性。
技术关键词
关键帧
视频分析方法
图像识别模型
视觉
图像分类模型
可见光图像
视频帧
人脸
景深
样本
图像块
标签
标识
系统为您推荐了相关专利信息
舆情分析方法
舆情分析系统
跨模态
情感分析模型
话题
运动特征
运动编码器
视频检测方法
二分类模型
通用特征
激光三维扫描仪
激光引导装置
高清摄像头
遥控电动车
一体化装置
激光雷达数据
决策支持模型
规划
可变形卷积网络
视觉