摘要
本发明公开了S1、收集图文数据,筛选预处理后得到的数据集图像文本对;S2、图像分支和文本分支通过CLIP预训练模型图像和文本编码器得到参数;S3、采用纹样语义增强模块训练模型;S4、计算检索结果,本发明基于预训练模型CLIP强大的迁移能力,将其中已有的大量知识应用在传统纹样图文数据上,并通过纹样语义增强模块训练图像编码器,通过输入缺失纹样信息的文本,指导模型进行选择填空任务,从预先构建的纹样语料库中选择匹配的纹样补全文本,该模块提高了编码器对图像中局部复杂纹样的挖掘能力和判别能力,模型一方面提取纹样的精细特征,另一方面对各类纹样具有一定的判别能力,从而与文本特征对齐。
技术关键词
图文检索方法
文本编码器
语义
图文检测方法
图像编码器
预训练模型
查询特征
预测特征
答案
数据
分支
视觉特征
注意力机制
图像库
参数
系统为您推荐了相关专利信息
知识库构建方法
多模态深度学习
实体
文本
引入注意力机制
检测分割方法
检测网络模型
输变电设备
场景
电力
缺陷类别
失效分析方法
缺陷检测单元
线型缺陷
像素点