摘要
本公开提供了一种目标识别方法、电子设备及计算机产品,应用于计算机技术领域,所述方法包括:获取原始图像以及针对原始图像中的待识别目标的语言描述信息;通过第一模型从语言描述信息中提取目标类信息,并通过第二模型在原始图像中识别目标类信息对应的全部第一目标;根据原始图像、语言描述信息和各第一目标,生成多模态提示词,并通过第三模型,从各第一目标中筛选出满足多模态提示词的第二目标,将筛选出的第二目标为待识别目标;增强了对复杂语义的理解能力,提高目标识别的准确性;第三模型能够融合图像与文本双模态信息,判断每个目标是否符语言合描述信息中,剔除不符合描述信息的目标,进一步提高目标识别的准确性。
技术关键词
多模态
识别方法
图像
终端设备
电子设备
计算机程序产品
处理器
双模态
云端
冗余
存储器
语义
文本