摘要
本发明公开了一种目标检测方法、设备及存储介质,该方法包括:确定目标检测网络;目标检测网络包括文本编码器、图像编码器、跨模态跨尺度融合模块与检测头;接收图像数据与文本信息;在文本编码器中,将文本信息编码为第一语义特征;在图像编码器中,将图像数据编码为多个尺度的图像特征;在跨模态跨尺度融合模块中,将第一语义特征与多个尺度的图像特征局部从局部转全局交互融合为多模态语义特征;在检测头中,依据多模态语义特征在图像数据中生成内容为文本信息的检测框。前期使用部分图像特征,后期使用全部图像特征,在并未丢失图像特征的情况下,可以大幅度提升基于开放词汇的目标检测的效率,适于部署在计算资源受限的边缘盒子。
技术关键词
语义特征
多模态
图像编码器
跨尺度特征融合
文本编码器
注意力
编码器模块
跨模态
上采样
数据编码
解码器
多帧图像数据
计算资源受限
信息编码
处理器