一种基于多模态大模型的工业场景下的通用物体检测方法

正文

推荐专利

申请号：CN202411120554

申请日期：2024-08-15

公开号：CN119273944A

公开日期：2025-01-07

类型：发明专利

摘要

本发明的一种基于多模态大模型的工业场景下的通用物体检测方法，包括：将实际产线的视频流按帧转为实际产线图片；从实际产线图片中挑选包含待检测目标物体的图片作为模板图片；将模板图片输入Blip‑2，输出文字描述；采用词频统计策略，根据频率、相关性的性质自动从文字描述中提取获得提示词；将提示词和所有实际产线图片输入Glip模型，根据提示词在实际产线图片中找到待检测目标物体的目标框；按照目标框对实际产线图片进行切割，得到多张目标框区域图片；将目标框区域图片和模板图片输入到VIT网络，分别提取对应的特征图；将目标框区域图片的特征图和模板图片的特征图进行相似度比对，选取相似度高于阈值的目标框区域图片。

技术关键词

通用物体检测方法图片产线多模态模板文本编码器图像编码器图像切割方法词频统计场景注意力机制智能化工业双线性插值法列表正则化方法多层感知器视频流

一种基于多模态大模型的工业场景下的通用物体检测方法

站点导航

APP 下载