摘要
本发明公开了一种基于多模态大模型的表观缺陷检测方法及系统。首先,设计提示词,利用GPT‑4V自动标注缺陷图像来构建缺陷图像‑掩膜‑文字描述数据集;其次,利用此数据集微调预训练的大语言骨干网络,使其能更好地理解缺陷检测任务;然后,针对编码器各层视觉特征,设计了一种多视觉尺度token组机制,再利用轻量级掩膜解码器输出缺陷检测结果;最后,结合大语言骨干网络的文字描述输出,设计了一种结合缺陷检测掩膜和缺陷文字描述的缺陷检测算法,大幅提高了工业生产环境中的缺陷检测准确率。
技术关键词
表观缺陷检测方法
视觉特征
多模态
编码器
掩膜
解码器
缺陷检测算法
图像
工业生产环境
网络
多尺度
数据
多视觉
处理器
注意力
标签
存储装置