摘要
本申请涉及目标检测技术领域,特别涉及一种多尺度多阶段的开放语义目标检测方法、装置及电子设备,其中,方法包括:获取训练图像数据集;对训练图像数据集进行多尺度特征对齐得到视觉与语言的对齐结果;根据视觉与语言的对齐结果生成新类的伪标签,根据新类的伪标签和类的真实标注训练视觉与语言预训练模型,其中,视觉与语言预训练模型在训练过程中对伪标签进行多阶段的迭代优化;基于训练完成的视觉与语言预训练模型对目标图像进行开放语义目标检测。由此,解决了如何更好地实现对局部特征的理解以及提高物体检测精度的问题。
技术关键词
训练图像数据
预训练模型
多阶段
视觉
多尺度特征
语义
标签
分类器
电子设备
感兴趣
对齐模块
计算机程序产品
物体检测
残差网络
处理器
指令
可读存储介质