摘要
本申请适用于视觉语言模型技术领域,提供了一种开放词汇目标检测模型的蒸馏学习方法,包括:基于预训练的候选框提取模型,获取待检测图片的伪标签,将待检测图片按照伪标签的区域进行裁剪,获得伪标签区域图像,伪标签为与已知类的标注框不重合的候选框;基于CLIP视觉编码器,获取伪标签区域图像的视觉特征;基于CLIP文本编码器,采用文本类别标签生成方法,获取伪标签区域图像的文本特征;基于视觉特征和文本特征,采用双对称蒸馏方法,对目标检测模型进行知识蒸馏学习,使目标检测模型学习到CLIP视觉编码器的视觉特征以及CLIP文本编码器的文本特征,本发明的目标检测模型能够对视觉特征和文本特征进行知识蒸馏学习,提高了目标检测模型的泛化能力。
技术关键词
视觉特征
文本编码器
蒸馏学习方法
标签生成方法
蒸馏方法
物体
图像
图片
教师
关系
语言模型技术
学生
可读存储介质
裁剪模块
学习系统
处理器
系统为您推荐了相关专利信息
区域建议网络
标注方法
视觉特征
标注装置
多模态
海报生成方法
注意力
周期性
布局
非易失性计算机可读存储介质
表情特征
筛查方法
序列
时序特征
长短期记忆网络