摘要
本发明提出了一种基于区域提示的视觉语言目标检测器Zone‑YOLO,包括视觉编码器、文本编码器、Scale‑Aware VL‑PAN Neck、word embedding单词嵌入、zone prompts区域提示、Adapter适配器、Text Contrastive Head图文对比头、Zone Head,其中。本发明首创了尺度感知多模态融合模块,充分挖掘文本特征,学习在不同尺度下无缝融合多模态表征;本发明提出一种新的区域提示学习模块,将文本特征引入回归头,并捕获区域‑类别‑实例三重共现信息,显著提高了模型的定位性能。大量实验表明,Zone YOLO取得了具有竞争力的结果,并证明了基于预训练VLOD的闭集检测微调的优越性。
技术关键词
混合矩阵
文本编码器
混合特征矩阵
融合特征
图像
检测器
代表
多模态注意力
检测头
实体共现信息
注意力机制
视觉
通道
子模块
sigmoid函数
系统为您推荐了相关专利信息
支持向量机模型
隧道病害
多尺度图像分割
拓扑特征
光照补偿技术
塑料颗粒
检测分析系统
样本
聚丙烯颗粒
核磁共振波谱仪
施工场所
热图像
三维建筑模型
火灾监控方法
图像拍摄设备
高频特征
图像特征提取
细粒度特征
融合可见光图像
重构模块