摘要
本发明公开了一种基于多模态异常值合成的视觉语言模型分布外样本检测方法,包括:基于少量分布内图像样本,通过对图像内容的语义特征分析与采样,生成与分布内语义密切相关的、高质量的图像和文本形式的多模态分布外样本,然后构建融合分布内样本与合成分布外样本的图像原型与文本原型,在推理过程中,采用图像与文本双模态原型匹配机制,同时进行相似度计算,接着在此基础上,提出多模态原型匹配得分综合评估待测样本与分布内类别之间的相似性。本发明能够基于少量分布内样本自动生成具有图像和文本标签的分布外样本,提升模型在多模态分布外检测任务中的泛化能力和鲁棒性。
技术关键词
样本检测方法
图像嵌入
原型
图像编码器
视觉
语义标签
图像特征向量
多模态信息
文本编码器
训练集数据
图像分割模型
切块
聚类
重叠面积
系统为您推荐了相关专利信息
智能机械臂系统
智能算法模块
强化学习算法
决策
场景
局部注意力交互
局部注意力机制
深度图信息
通道
输入解码器
噪声抑制
环境监测方法
环境监测系统
灰度矩阵
CMOS传感器