一种基于多模态大模型的工业场景下的通用物体检测方法

AITNT
正文
推荐专利
一种基于多模态大模型的工业场景下的通用物体检测方法
申请号:CN202411120554
申请日期:2024-08-15
公开号:CN119273944A
公开日期:2025-01-07
类型:发明专利
摘要
本发明的一种基于多模态大模型的工业场景下的通用物体检测方法,包括:将实际产线的视频流按帧转为实际产线图片;从实际产线图片中挑选包含待检测目标物体的图片作为模板图片;将模板图片输入Blip‑2,输出文字描述;采用词频统计策略,根据频率、相关性的性质自动从文字描述中提取获得提示词;将提示词和所有实际产线图片输入Glip模型,根据提示词在实际产线图片中找到待检测目标物体的目标框;按照目标框对实际产线图片进行切割,得到多张目标框区域图片;将目标框区域图片和模板图片输入到VIT网络,分别提取对应的特征图;将目标框区域图片的特征图和模板图片的特征图进行相似度比对,选取相似度高于阈值的目标框区域图片。
技术关键词
通用物体检测方法 图片 产线 多模态 模板 文本编码器 图像编码器 图像切割方法 词频统计 场景 注意力机制 智能化工业 双线性插值法 列表 正则化方法 多层感知器 视频流
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号