摘要
本申请公开了一种多模态目标检索方法、设备及存储介质,该多模态目标检索方法包括:对待检索图像进行图像编码得到待检索图像特征,并对提示文本进行文本编码得到文本特征;基于待检索图像特征识别得到候选目标的候选目标区域,获取候选目标区域对应的初始区域特征;利用交叉注意力机制计算文本特征与初始区域特征之间的注意力,得到图文注意力参数;基于图文注意力参数对候选目标区域进行区域图像编码,得到区域视觉特征;计算文本特征与区域视觉特征之间的匹配度,筛选匹配度满足预设条件的区域视觉特征对应的候选目标,得到目标检索结果。使用提示文本信息驱动区域视觉特征的提取,优化区域特征提取能力,提高了目标检索的精度。
技术关键词
视觉特征
文本
注意力参数
检索图像
图像编码
交叉注意力机制
图文
检索方法
融合特征
区域特征提取
多模态
可读存储介质
电子设备
处理器
程序
指令
系统为您推荐了相关专利信息
电缆沟
体系结构框架
数据
深度神经网络模型
故障知识库
信息检索方法
网页页面
大语言模型
信息检索装置
多模态
文本
大语言模型
答案
计算机可执行指令
特征提取模型