摘要
本发明的一种基于多模态大模型的工业场景下的通用物体检测方法,包括:将实际产线的视频流按帧转为实际产线图片;从实际产线图片中挑选包含待检测目标物体的图片作为模板图片;将模板图片输入Blip‑2,输出文字描述;采用词频统计策略,根据频率、相关性的性质自动从文字描述中提取获得提示词;将提示词和所有实际产线图片输入Glip模型,根据提示词在实际产线图片中找到待检测目标物体的目标框;按照目标框对实际产线图片进行切割,得到多张目标框区域图片;将目标框区域图片和模板图片输入到VIT网络,分别提取对应的特征图;将目标框区域图片的特征图和模板图片的特征图进行相似度比对,选取相似度高于阈值的目标框区域图片。
技术关键词
通用物体检测方法
图片
产线
多模态
模板
文本编码器
图像编码器
图像切割方法
词频统计
场景
注意力机制
智能化工业
双线性插值法
列表
正则化方法
多层感知器
视频流