摘要
本发明实施例提供一种基于多模态大模型的无人机巡检图像智能分拣方法,属于图像处理技术领域。所述分拣方法包括:通过无人机巡检采集设备状态数据,并进行预处理;从预处理后的图像数据中提取出能够反映电力设施状态的特征;基于从预处理后的图像数据中提取出的能够反映电力设施状态的特征,计算实现相似图像的高精度匹配;根据CLIP的图像编码器和文本编码器,将需要匹配的特征的跨模态图像数据和文本数据编码成特征向量形式,映射到同一特征空间,并计算图文余弦相似度,以实现跨模态匹配关联图文。该分拣方法可以智能分析用户数据需求意图,从海量图像数据库中检索相关联图像数据,达到以图搜图和以文识图的效果。
技术关键词
图像编码器
文本编码器
无人机巡检图像
智能分拣方法
Siamese网络
电力设施
图文
数据编码
图像分割算法
采集设备
智能分析用户
网络结构
分布式存储技术
跨模态图像
系统为您推荐了相关专利信息
图像嵌入
编码模块
文本编码器
图像编码器
多模态
浮点数
图像检索方法
图像处理模块
物体
图像检索装置
模型训练方法
神经网络模型
图像编码器
图像识别方法
标签
变形服装
扩散系统
交叉注意力机制
多尺度特征融合
图像解码单元