摘要
本发明公开了一种基于背景解耦和掩码引导区域正则化的视觉语言模型OOD检测方法,属于计算机视觉和自然语言处理领域,该方法通过背景信息解耦的方式生成背景噪声样本作为OOD样本,能够抑制模型应对背景图像干扰的响应;通过重复ID样本的ID区域中的局部图像块以扩展OOD样本,能够增强模型应对更广泛类型的OOD噪声的干扰能力;将ID样本中的背景区域替换为OOD样本中的对应区域以扩展ID样本,能够有效提升模型对ID相关区域的学习能力;同时,采用基于掩码引导的区域正则化训练方法,通过对图像块进行精准的ID与OOD划分并在训练过程中提供约束,能够有效抑制模型应对ID无关区域的响应,防止模型过度关注图像的背景区域,从而强化模型在背景干扰下的鲁棒性。
技术关键词
样本
图像块
可读存储介质
图像编码器
模型测试方法
全局视觉特征
标签
自动驾驶系统
文本编码器
阶段
指令
计算机程序产品
处理器
计算机视觉
背景噪声
自然语言