一种级联式由粗到细语义匹配的弱监督视觉定位方法及装置

正文

推荐专利

申请号：CN202510727926

申请日期：2025-06-03

公开号：CN120655893A

公开日期：2025-09-16

类型：发明专利

摘要

本发明公开了一种级联式由粗到细语义匹配的弱监督视觉定位方法及装置，所述方法为：从输入图像中提取与图像中各对象一对一关联的查询；将输入文本编码为全局文本特征和词级文本特征；根据查询置信度筛选并将查询数量缩减至O个，生成候选集在粗粒度对齐中，通过基于类别匹配、查询‑文本相似度筛选并将查询数量缩减至K个，生成精炼查询集在细粒度对齐中，基于词级文本特征相似度进行精细匹配，输出最优查询q*；利用定位头解码最优查询中的目标信息，预测被指代对象的边界框或掩码。本发明能有效减少边界框和掩码的标注工作，提高弱监督视觉定位任务的精度，尤其在多对象场景中能良好保持类别与属性一致性。

技术关键词

视觉定位方法语义级联文本编码器查询特征定位头预测类别对象图像检测器注意力图像编码器解码定义特征处理器视觉特征超参数存储器

一种级联式由粗到细语义匹配的弱监督视觉定位方法及装置

站点导航

APP 下载