摘要
本发明提供一种基于大型视觉语言模型的家电拆解过程中的人员行为识别模型训练方法、行为识别方法及系统。包括:获取拆解过程中的视频数据、将视频数据处理成连续帧、拆解过程人员行为定义、使用Gemini大模型辅助人工标注数据、基于LLaMA2‑7B基座模型设计大型视觉语言模型、分两阶段训练大型视觉语言模型、产品拆解过程人员行为识别系统的前后端搭建与实现。本发明能够准确识别8类不同的家电拆解动作,涵盖了多样化的手势和肢体动作。通过利用大型视觉语言模型的高级逻辑推理能力,本发明实现了对复杂工业场景下人员行为的高效识别,具备良好的迁移性,能够广泛应用于各种工业环境。与传统方法相比,本技术在识别精度和适应性方面具有显著优势,为工业自动化和安全管理提供了一种创新的解决方案。
技术关键词
识别模型训练方法
视觉特征提取
标注方法
拆解作业
标注管理方法
安全帽
文本
拆解工位
标注规则
识别方法
两阶段
图像
视频播放进度
视频元数据
问答对数据
识别系统
锤子工具
系统为您推荐了相关专利信息
路口结构
图像特征识别
识别模型训练方法
识别方法
关键点
WiFi设备
标注方法
虚拟建筑模型
热点
气压传感器
标注方法
非暂态计算机可读存储介质
操作界面
处理器
标注装置
解码模块
图像特征提取
字符
识别模型训练方法
公式识别方法
信息检索方法
智能搜索系统
街景数据
神经网络算法
街道