摘要
本发明涉及一种通用视觉目标定位方法、装置、电子设备及存储介质,属于图像识别技术领域,其中,该通用视觉目标定位方法包括:获取包含待定位目标对象的待识别图像和用于描述待定位目标对象的文本信息;采用特征提取模块提取文本信息的语言特征,并基于语言特征提取待识别图像的视觉特征;采用自适应跨模态解码模块对语言特征和视觉特征进行解码,得到待定位目标对象的目标查询特征;采用目标定位模块基于目标查询特征在待识别图像中定位待定位目标对象。本发明在提取视觉特征时,在语言信息的引导下调整特征映射,使得模型能够更灵活地提取与目标对象相关的上下文信息,视觉定位更加准确。
技术关键词
查询特征
跨模态
定位方法
解码模块
特征提取模块
对象
定位模块
上下文特征
视觉特征提取
神经网络模型
文本
降维特征
注意力机制
多尺度
子模块
前馈神经网络
图像识别技术