摘要
本发明公开了一种级联式由粗到细语义匹配的弱监督视觉定位方法及装置,所述方法为:从输入图像中提取与图像中各对象一对一关联的查询;将输入文本编码为全局文本特征和词级文本特征;根据查询置信度筛选并将查询数量缩减至O个,生成候选集在粗粒度对齐中,通过基于类别匹配、查询‑文本相似度筛选并将查询数量缩减至K个,生成精炼查询集在细粒度对齐中,基于词级文本特征相似度进行精细匹配,输出最优查询q*;利用定位头解码最优查询中的目标信息,预测被指代对象的边界框或掩码。本发明能有效减少边界框和掩码的标注工作,提高弱监督视觉定位任务的精度,尤其在多对象场景中能良好保持类别与属性一致性。
技术关键词
视觉定位方法
语义
级联
文本编码器
查询特征
定位头
预测类别
对象
图像检测器
注意力
图像编码器
解码
定义特征
处理器
视觉特征
超参数
存储器