一种基于多模态大模型的抽烟识别方法

正文

推荐专利

一种基于多模态大模型的抽烟识别方法

申请号：CN202411123758

申请日期：2024-08-15

公开号：CN119027855A

公开日期：2024-11-26

类型：发明专利

摘要

本发明涉及一种基于多模态大模型的抽烟识别方法，旨在提高复杂场景下抽烟行为检测的精度和可靠性。该方法首先通过实时采集监控视频流数据并将其分解为多帧图像，利用优化后的YOLOv8模型进行人体目标检测与标注，标注后的图像与文本提示词通过OpenClip ViT‑bigG视觉编码器和Qwen‑7B语言模型进行对齐训练，形成图片‑提示词对齐模型。随后，基于Qwen‑VL模型框架，使用LoRA微调方法对标注后的数据进行增量微调训练，生成用于抽烟识别的VLM模型参数。在实际应用中，实时输入的视频流图像与提示词经由训练后的YOLOv8和VLM模型处理，实现对抽烟行为的精准识别与输出。

技术关键词

识别方法图像语言编码器监控视频流多模态特征人体微调方法文本数据图片场景参数精度坐标阶段框架格式视觉