摘要
本发明公开了目标检测技术领域的一种多模态目标检测方法、装置、终端及储存介质,旨在解决现有技术通常存在依赖标注数据、视觉骨干多样性不足的问题,且训练成本较高的问题。其包括以下步骤:获取目标图像;将目标图像输入至预训练好的多模态目标检测模型,输出定位及分类预测结果,完成检测;本发明首次在目标检测任务中引入UNet网络作为视觉骨干网络,突破了传统有监督和无监督方法的局限性,为目标检测任务提供了全新的特征表示方式;本发明利用多模态目标检测模型的自监督学习能力,减少了对大量标注数据的依赖,降低了训练成本,同时提升了模型在数据稀缺场景下的适用性。
技术关键词
多模态
编码器
注意力
文本
多尺度特征融合
区域生成网络
图片
检测头
特征提取模块
子模块
图像编码
通道
处理器
输入模块
定位模块
终端