基于多模态大模型微调的视频行为识别方法、装置和设备

AITNT
正文
推荐专利
基于多模态大模型微调的视频行为识别方法、装置和设备
申请号:CN202510075914
申请日期:2025-01-17
公开号:CN119495127B
公开日期:2025-04-22
类型:发明专利
摘要
本公开的实施例涉及视频检测技术领域,具体涉及基于多模态大模型微调的视频行为识别方法、装置和设备。本公开方法的一具体实施方式包括:获取视频行为识别数据集和初始视频行为识别模型;对于每个视频行为识别数据,执行以下步骤:确定视频行为识别数据包括的视频帧序列对应的关键帧图像;将关键帧图像存储至预设图像存储位置;基于标签文本模板、关键帧图像、图像存储路径和视频行为识别数据包括的行为标签,生成训练样本,其中,训练样本包括样本图像和样本标签数据;对初始视频行为识别模型进行训练,以及确定为视频行为识别模型;将目标视频数据输入视频行为识别模型,得到视频行为文本信息。该实施方式可以提高视频行为识别模型的训练时长。
技术关键词
图像 标签文本 视频帧 关键帧 生成训练样本 序列 数据 多模态 模块 注意力 识别方法 视频检测技术 识别模型训练 矩阵 模板 微调方法
系统为您推荐了相关专利信息
1
基于机器视觉的基板玻璃表面缺陷自动检测方法及系统
玻璃表面缺陷 自动检测方法 多任务学习网络 拓扑特征 像素
2
一种调控伪标签的结直肠癌病理图像半监督语义分割方法及系统
直肠癌 级联式 语义分割模型 图像采集设备 分割掩模
3
管道检测方法、装置、电子设备及存储介质
管道检测方法 图像识别模型 管口 检测管道内壁 像素点
4
基于双目摄像机的人员安全监测系统及方法
摄像单元 双目摄像机 监测系统 环境光线亮度 障碍物识别
5
一种基于动态加权小波注意力的人脸识别方法及系统
人脸识别方法 空间金字塔池化 高频特征 特征金字塔网络 人脸识别模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号