摘要
本申请提供一种视觉场景识别定位方法和定位装置、存储介质、计算机设备。视觉场景识别定位方法包括:利用识别定位模型的主干网络提取原始图像的初步图像特征,将初步图像特征依次经过识别定位模型的代理注意力机制模块和门控前馈网络处理,得到原始图像的全局图像特征;利用全局图像特征作为训练样本训练识别定位模型;利用训练好的识别定位模型提取出待检索图像和数据库图像的特征向量,计算待检索图像的特征向量与各幅数据库图像的特征向量之间的相似度,根据各个相似度确定待检索图像的匹配图像。通过自注意力机制,能够学习到图像特征上下文的关联,突出更感兴趣区域特征,减少冗余信息,能够提取出场景图片中表征能力更强,更加鲁棒的特征。
技术关键词
识别定位方法
检索图像
注意力机制
视觉
场景
识别定位装置
计算机设备
模型训练模块
可读存储介质
矩阵
特征提取模块
网络
定位模块
支路
程序
处理器