摘要
本发明涉及一种基于多模态大模型的抽烟识别方法,旨在提高复杂场景下抽烟行为检测的精度和可靠性。该方法首先通过实时采集监控视频流数据并将其分解为多帧图像,利用优化后的YOLOv8模型进行人体目标检测与标注,标注后的图像与文本提示词通过OpenClip ViT‑bigG视觉编码器和Qwen‑7B语言模型进行对齐训练,形成图片‑提示词对齐模型。随后,基于Qwen‑VL模型框架,使用LoRA微调方法对标注后的数据进行增量微调训练,生成用于抽烟识别的VLM模型参数。在实际应用中,实时输入的视频流图像与提示词经由训练后的YOLOv8和VLM模型处理,实现对抽烟行为的精准识别与输出。
技术关键词
识别方法
图像
语言编码器
监控视频流
多模态特征
人体
微调方法
文本
数据
图片
场景
参数
精度
坐标
阶段
框架
格式
视觉