基于多模态大模型微调的视频行为识别方法、装置和设备

正文

推荐专利

申请号：CN202510075914

申请日期：2025-01-17

公开号：CN119495127B

公开日期：2025-04-22

类型：发明专利

摘要

本公开的实施例涉及视频检测技术领域，具体涉及基于多模态大模型微调的视频行为识别方法、装置和设备。本公开方法的一具体实施方式包括：获取视频行为识别数据集和初始视频行为识别模型；对于每个视频行为识别数据，执行以下步骤：确定视频行为识别数据包括的视频帧序列对应的关键帧图像；将关键帧图像存储至预设图像存储位置；基于标签文本模板、关键帧图像、图像存储路径和视频行为识别数据包括的行为标签，生成训练样本，其中，训练样本包括样本图像和样本标签数据；对初始视频行为识别模型进行训练，以及确定为视频行为识别模型；将目标视频数据输入视频行为识别模型，得到视频行为文本信息。该实施方式可以提高视频行为识别模型的训练时长。

技术关键词

图像标签文本视频帧关键帧生成训练样本序列数据多模态模块注意力识别方法视频检测技术识别模型训练矩阵模板微调方法

系统为您推荐了相关专利信息

基于机器视觉的基板玻璃表面缺陷自动检测方法及系统

玻璃表面缺陷自动检测方法多任务学习网络拓扑特征像素

一种调控伪标签的结直肠癌病理图像半监督语义分割方法及系统

直肠癌级联式语义分割模型图像采集设备分割掩模

管道检测方法、装置、电子设备及存储介质

管道检测方法图像识别模型管口检测管道内壁像素点

基于双目摄像机的人员安全监测系统及方法

摄像单元双目摄像机监测系统环境光线亮度障碍物识别

一种基于动态加权小波注意力的人脸识别方法及系统

人脸识别方法空间金字塔池化高频特征特征金字塔网络人脸识别模型

基于多模态大模型微调的视频行为识别方法、装置和设备

站点导航

APP 下载