摘要
本发明涉及缺陷检测技术领域,尤其是涉及一种基于多模态大模型的钢板表面缺陷检测方法及系统。包括获取钢板表面图像数据,包括多场景的标准图、缺陷图、文本描述及像素级位置标签;构建多模态缺陷定位分析模型;提取标准图和缺陷图的图特征向量,根据图特征向量生成缺陷位置编码,通过图像解码器对所述缺陷位置编码进行特征融合与上采样,得到像素级缺陷位置;提取缺陷图特征向量和范围提示词向量,与文本描述进行向量拼接后输入大语言模型,输出缺陷分析结果;通过联合损失函数优化多模态缺陷定位分析模型。解决在钢板表面缺陷检测方面,实现既能精准识别缺陷并输出缺陷位置信息,又不依赖大量的带有位置信息的标注框数据的问题。
技术关键词
多模态
跨模态融合特征
图像解码器
缺陷分析
联合损失函数
表面图像数据
大语言模型
文本
像素
图像编码器
多场景
钢板表面缺陷
卷积特征
缺陷位置信息
可读存储介质
缺陷检测技术