摘要
本发明公开了一种基于预训练模型定位知识嵌入的零样本目标检测方法,属于深度学习目标检测领域。本发明在COCO数据集基础上,构建一个区域图像、IoU标签的数据集(Region‑IoU)。然后使用该数据集对传统的视觉语言模型CLIP进行微调以及学习对IoU敏感的语义提示。使得的IoU‑CLIP模型具备局部目标定位的相关知识,能够预测检测框的IoU分数以及生成类无关IoU敏感的视觉特征。最后将该特征与IoU分数集成进开放词汇零样本检测框架。本发明可以有效地提升开放词汇零样本目标检测任务的性能。
技术关键词
预训练模型
模型预训练
图像
视觉特征
标签
融合置信度
语言编码器
样本
语义
文本编码器
置信度阈值
数据
超参数
定义
坐标
阶段
框架
网络
系统为您推荐了相关专利信息
三维重建方法
步进电机驱动器
生成三维模型
旋转模块
悬挂模块
风险评估方法
组学特征
影像
乳腺超声图像
灰度共生矩阵