一种开放词汇目标检测模型的蒸馏学习方法、系统、设备及介质

正文

推荐专利

申请号：CN202411598760

申请日期：2024-11-11

公开号：CN119539027B

公开日期：2025-10-17

类型：发明专利

摘要

本申请适用于视觉语言模型技术领域，提供了一种开放词汇目标检测模型的蒸馏学习方法，包括：基于预训练的候选框提取模型，获取待检测图片的伪标签，将待检测图片按照伪标签的区域进行裁剪，获得伪标签区域图像，伪标签为与已知类的标注框不重合的候选框；基于CLIP视觉编码器，获取伪标签区域图像的视觉特征；基于CLIP文本编码器，采用文本类别标签生成方法，获取伪标签区域图像的文本特征；基于视觉特征和文本特征，采用双对称蒸馏方法，对目标检测模型进行知识蒸馏学习，使目标检测模型学习到CLIP视觉编码器的视觉特征以及CLIP文本编码器的文本特征，本发明的目标检测模型能够对视觉特征和文本特征进行知识蒸馏学习，提高了目标检测模型的泛化能力。

技术关键词

视觉特征文本编码器蒸馏学习方法标签生成方法蒸馏方法物体图像图片教师关系语言模型技术学生可读存储介质裁剪模块学习系统处理器

系统为您推荐了相关专利信息

一种基于区域建议网络的细粒度目标组件标注方法和装置

区域建议网络标注方法视觉特征标注装置多模态

基于周期性稀疏变换的海报生成方法、装置、设备及介质

海报生成方法注意力周期性布局非易失性计算机可读存储介质

基于表情特征与视觉分析融合时间序列的抑郁症筛查方法

表情特征筛查方法序列时序特征长短期记忆网络

一种基于神经网络的台区电能质量态势预测方法

态势预测方法电能滑动时窗数据注意力机制

基于集体标注的目标计数模型训练方法及电子设备

模型训练方法样本融合特征掩模文本编码器

一种开放词汇目标检测模型的蒸馏学习方法、系统、设备及介质

站点导航

APP 下载