摘要
本发明属于计算机视觉技术领域,涉及一种基于深度学习的细粒度图像检索方法,包括:获取待检索的图像数据;对图像数据进行预处理,将预处理后的图像输入到细粒度图像检索模型中,得到检索结果;其中细粒度图像检索模型包括ViT模型、Token筛选模块、中值增强空间通道注意力模块以及语义信息融合模块;ViT模型用于将图像划分为固定大小的patch序列;Token筛选模块模块用于对patch序列进行处理,得到高层语义特征表示;中值增强空间通道注意力模块用于对patch序列进行特征提取,得到中低层细节特征表示;语义信息融合模块用于对高层语义特征表示和中低层细节特征表示进行融合;本发明通过将ViT模型引入到图像检索任务中,并针对ViT模型中的token提出了独特的token增强选取方法,提升了模型对图像高层语义的表示能力。
技术关键词
高层语义特征
图像检索模型
模块
输出特征
序列
融合特征
多尺度特征
Sigmoid函数
高层语义信息
通道注意力机制
多头注意力机制
计算机视觉技术
细粒度特征
全局平均池化
元素
系统为您推荐了相关专利信息
数据特征提取
彩色图像
机器人操作系统
机器人模仿学习
多模态特征
车道中心线
交通灯信息
决策方法
车道线信息
显示状态控制
实时监测系统
神经网络模型
实时监测方法
数据分析模块
节点数
中央空调
能力评估模型
电网调频需求
能力评估方法
能力评估装置
低压配网线路
场景评估方法
负荷
多场景
有功功率