摘要
本发明公开了一种工业缺陷图文联合检测方法及相关设备,其中方法包括如下步骤:获取工业产品图像并提取多尺度视觉特征;获取与图像相关的文本信息并提取文本特征;将图像与文本特征输入具备跨模态注意力机制的大语言模型中进行融合推理,生成缺陷语义特征;基于该特征通过分割解码模块输出像素级缺陷掩膜;最终联合生成缺陷文字描述并与原图叠加形成图文检测结果输出。本发明充分利用视觉感知与文本知识的互补性,具有样本依赖小、鲁棒性强、输出结果具有人类可读性的优点,适用于工业制造过程中的质量监测与缺陷分析场景,具备良好的实用性与推广价值。
技术关键词
联合检测方法
工业产品图像
图文
大语言模型
融合特征
解码模块
文本编码器
图像编码器
计算机程序产品
多模态特征融合
掩膜
BERT模型
跨模态
缺陷分析
指令
处理器
视觉特征
系统为您推荐了相关专利信息
文本识别模型
特征金字塔网络
预测阈值
图像
字符识别方法
特征融合方法
大语言模型
纤维束
令牌
生成自然语言
电力系统拓扑模型
节点特征
多头注意力机制
时间序列特征
电力负荷预测方法