一种基于多模态大模型的抽烟识别方法

AITNT
正文
推荐专利
一种基于多模态大模型的抽烟识别方法
申请号:CN202411123758
申请日期:2024-08-15
公开号:CN119027855A
公开日期:2024-11-26
类型:发明专利
摘要
本发明涉及一种基于多模态大模型的抽烟识别方法,旨在提高复杂场景下抽烟行为检测的精度和可靠性。该方法首先通过实时采集监控视频流数据并将其分解为多帧图像,利用优化后的YOLOv8模型进行人体目标检测与标注,标注后的图像与文本提示词通过OpenClip ViT‑bigG视觉编码器和Qwen‑7B语言模型进行对齐训练,形成图片‑提示词对齐模型。随后,基于Qwen‑VL模型框架,使用LoRA微调方法对标注后的数据进行增量微调训练,生成用于抽烟识别的VLM模型参数。在实际应用中,实时输入的视频流图像与提示词经由训练后的YOLOv8和VLM模型处理,实现对抽烟行为的精准识别与输出。
技术关键词
识别方法 图像 语言编码器 监控视频流 多模态特征 人体 微调方法 文本 数据 图片 场景 参数 精度 坐标 阶段 框架 格式 视觉
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号