摘要
本发明涉及一种电能计量箱图像缺陷识别方法,包括以下步骤:S1:收集包含电能计量箱的图像数据,并收集与图像相关的缺陷描述文本;S2:对数据进行预处理;S3:使用预训练的VisionTransformer模型提取图像特征Vimg,使用预训练的GPT‑1模型处理缺陷描述文本,获取文本的语义特征Vtxt;S4:构建多模态对齐模型,通过计算图像特征和文本特征之间的注意力权重,实现特征级的对齐;S5:使用对齐损失以优化模型,使用标记数据进行监督学习,在训练过程中,调整异构对齐模块的参数以获得最佳对齐效果;S6:基于训练后的多模态对齐模型,对新输入的图像和文本进行对齐。本发明能实现对电能计量箱的图像和文本描述的高质量对齐,有效识别电能计量箱缺陷。
技术关键词
图像缺陷识别方法
电能计量箱
对齐模块
文本
异构
缺陷识别系统
多模态
语义特征
代表
协方差矩阵
注意力
数据
节点数
网络
存储器
处理器
参数