一种基于区域提示的视觉语言目标检测器Zone-YOLO

正文

推荐专利

申请号：CN202411048379

申请日期：2024-08-01

公开号：CN118940803B

公开日期：2025-12-09

类型：发明专利

摘要

本发明提出了一种基于区域提示的视觉语言目标检测器Zone‑YOLO，包括视觉编码器、文本编码器、Scale‑Aware VL‑PAN Neck、word embedding单词嵌入、zone prompts区域提示、Adapter适配器、Text Contrastive Head图文对比头、Zone Head，其中。本发明首创了尺度感知多模态融合模块，充分挖掘文本特征，学习在不同尺度下无缝融合多模态表征；本发明提出一种新的区域提示学习模块，将文本特征引入回归头，并捕获区域‑类别‑实例三重共现信息，显著提高了模型的定位性能。大量实验表明，Zone YOLO取得了具有竞争力的结果，并证明了基于预训练VLOD的闭集检测微调的优越性。

技术关键词

混合矩阵文本编码器混合特征矩阵融合特征图像检测器代表多模态注意力检测头实体共现信息注意力机制视觉通道子模块 sigmoid函数

系统为您推荐了相关专利信息

一种基于机器视觉的隧道病害目标智能识别及提取方法

支持向量机模型隧道病害多尺度图像分割拓扑特征光照补偿技术

一种聚丙烯塑料颗粒的质量检测分析系统

塑料颗粒检测分析系统样本聚丙烯颗粒核磁共振波谱仪

一种施工场所的火灾监控方法及系统

施工场所热图像三维建筑模型火灾监控方法图像拍摄设备

基于Haar小波变换的可见光与红外图像深度融合自编码器网络模型

高频特征图像特征提取细粒度特征融合可见光图像重构模块

基于行星变焦的射电望远镜的离焦全息测量方法

全息测量方法射电望远镜多项式地图卷积模型

一种基于区域提示的视觉语言目标检测器Zone-YOLO

站点导航

APP 下载