摘要
本发明提出一种基于预训练视觉‑语言模型的零样本图像异常检测定位方法,涉及图像异常检测定位的技术领域,利用通用的视觉异常检测数据集训练可学习适配器和可学习文本提示,在文本特征方面,构建正常状态文本提示和异常状态文本提示,并分别获取了正常状态文本表征和异常状态文本表征。在图像特征方面,获取图像在图片编码器中不同层次的表征,通过不同尺度的窗口大小,聚合不同尺度邻居信息的图像特征并利用适配器调整。最后,计算文本‑图像特征之间的相似度,使用归一化的方式获取图像分类为异常的概率得分。本发明利用通用异常数据集训练可学习文本提示和可学习适配器,解决训练样本无法获取时如何进行图像异常检测的问题,使得预训练模型能够适配于目标检测数据集,有效地进行零样本检测和定位。
技术关键词
检测定位方法
图像块特征
异常状态
适配器
表达式
视觉
二维图像特征
文本编码器
图片
样本
邻居
序列
数据
参数
注意力
语义
系统为您推荐了相关专利信息
变化检测方法
语义特征
表达式
特征提取网络
图像
数据传输方法
接收端
大规模分布式存储系统
加密控制器
表达式
CPLD芯片
电源模块
电源设备
异常状态
管理方法
虚拟同步发电机
同步转子
协同方法
状态空间方程
协同系统