摘要
本发明提供了一种基于视觉与语言模型的零样本异常检测方法、装置及设备,涉及异常检测技术领域,所述方法包括:从同一批次图像中获取推理图像和参考图像;通过第一多模态模型,分别对所述推理图像和所述参考图像进行双模态检测,获得初始掩码;通过第二多模态模型分别提取所述同一批次图像的特征并分别进行特征聚合,获得聚合推理特征和聚合参考特征;根据所述初始掩码,对所述聚合参考特征进行噪声特征过滤,获得非异常聚合参考特征,根据所述非异常聚合参考特征和所述聚合推理特征获得初始异常分数;根据所述初始异常分数和所述初始掩码进行掩码精炼,获得最终推理掩码,用于实现零样本异常检测。
技术关键词
异常检测方法
多模态
图像
噪声特征
双模态
视觉
文本
样本
补丁
邻域
异常检测技术
异常检测装置
存储计算机程序
中间层
模板
注意力
阶段
过滤模块
存储器
系统为您推荐了相关专利信息
骨骼关键点
事件识别方法
肘关节
膝关节
姿态估计
电池储能系统
状态估计方法
多任务
联合损失函数
融合深度神经网络
视觉跟踪方法
手术器械
图像
腹腔镜
深度学习模型