一种基于区域提示的视觉语言目标检测器Zone-YOLO

AITNT
正文
推荐专利
一种基于区域提示的视觉语言目标检测器Zone-YOLO
申请号:CN202411048379
申请日期:2024-08-01
公开号:CN118940803B
公开日期:2025-12-09
类型:发明专利
摘要
本发明提出了一种基于区域提示的视觉语言目标检测器Zone‑YOLO,包括视觉编码器、文本编码器、Scale‑Aware VL‑PAN Neck、word embedding单词嵌入、zone prompts区域提示、Adapter适配器、Text Contrastive Head图文对比头、Zone Head,其中。本发明首创了尺度感知多模态融合模块,充分挖掘文本特征,学习在不同尺度下无缝融合多模态表征;本发明提出一种新的区域提示学习模块,将文本特征引入回归头,并捕获区域‑类别‑实例三重共现信息,显著提高了模型的定位性能。大量实验表明,Zone YOLO取得了具有竞争力的结果,并证明了基于预训练VLOD的闭集检测微调的优越性。
技术关键词
混合矩阵 文本编码器 混合特征矩阵 融合特征 图像 检测器 代表 多模态注意力 检测头 实体共现信息 注意力机制 视觉 通道 子模块 sigmoid函数
系统为您推荐了相关专利信息
1
一种基于机器视觉的隧道病害目标智能识别及提取方法
支持向量机模型 隧道病害 多尺度图像分割 拓扑特征 光照补偿技术
2
一种聚丙烯塑料颗粒的质量检测分析系统
塑料颗粒 检测分析系统 样本 聚丙烯颗粒 核磁共振波谱仪
3
一种施工场所的火灾监控方法及系统
施工场所 热图像 三维建筑模型 火灾监控方法 图像拍摄设备
4
基于Haar小波变换的可见光与红外图像深度融合自编码器网络模型
高频特征 图像特征提取 细粒度特征 融合可见光图像 重构模块
5
基于行星变焦的射电望远镜的离焦全息测量方法
全息测量方法 射电望远镜 多项式 地图 卷积模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号