摘要
本发明适用于人工智能技术领域,提供了一种跨模态检索方法、装置、电子设备及存储介质,该方法包括:通过图像编码器对图像模态进行编码,通过文本编码器对文本模态进行编码,生成高维空间的向量表示;将图像模态的向量和文本模态的向量输入到同一个共享自注意力层进行对齐,并分别通过各自的前馈网络层提取特征;通过交叉注意力机制,对图像模态的向量和文本模态的向量进行跨模态交叉融合处理,得到图像模态的跨模态表征向量和文本模态的跨模态表征向量;基于图像模态的跨模态表征向量和文本模态的跨模态表征向量,输出图像模态和文本模态的相似度。本发明能够提高跨模态检索精度。
技术关键词
跨模态检索方法
交叉注意力机制
文本编码器
图像编码器
教师
BERT模型
交叉模块
标签
电子设备
可读存储介质
预训练模型
人工智能技术
检索装置
系统为您推荐了相关专利信息
位置识别方法
距离图像
多模态特征融合
描述符
视觉特征
模态特征
跨模态
多模态信息
记忆系统
大语言模型
重识别方法
行人重识别算法
行人重识别模型
身体
监控视频检索技术
人脸生成方法
编码特征
音频特征
人脸关键点
图像生成模型