摘要
本公开的实施例涉及视频检测技术领域,具体涉及基于多模态大模型微调的视频行为识别方法、装置和设备。本公开方法的一具体实施方式包括:获取视频行为识别数据集和初始视频行为识别模型;对于每个视频行为识别数据,执行以下步骤:确定视频行为识别数据包括的视频帧序列对应的关键帧图像;将关键帧图像存储至预设图像存储位置;基于标签文本模板、关键帧图像、图像存储路径和视频行为识别数据包括的行为标签,生成训练样本,其中,训练样本包括样本图像和样本标签数据;对初始视频行为识别模型进行训练,以及确定为视频行为识别模型;将目标视频数据输入视频行为识别模型,得到视频行为文本信息。该实施方式可以提高视频行为识别模型的训练时长。
技术关键词
图像
标签文本
视频帧
关键帧
生成训练样本
序列
数据
多模态
模块
注意力
识别方法
视频检测技术
识别模型训练
矩阵
模板
微调方法
系统为您推荐了相关专利信息
玻璃表面缺陷
自动检测方法
多任务学习网络
拓扑特征
像素
直肠癌
级联式
语义分割模型
图像采集设备
分割掩模
管道检测方法
图像识别模型
管口
检测管道内壁
像素点
摄像单元
双目摄像机
监测系统
环境光线亮度
障碍物识别
人脸识别方法
空间金字塔池化
高频特征
特征金字塔网络
人脸识别模型