跨模态检索方法、装置、电子设备及存储介质

正文

推荐专利

申请号：CN202411602767

申请日期：2024-11-11

公开号：CN119597939A

公开日期：2025-03-11

类型：发明专利

摘要

本发明适用于人工智能技术领域，提供了一种跨模态检索方法、装置、电子设备及存储介质，该方法包括：通过图像编码器对图像模态进行编码，通过文本编码器对文本模态进行编码，生成高维空间的向量表示；将图像模态的向量和文本模态的向量输入到同一个共享自注意力层进行对齐，并分别通过各自的前馈网络层提取特征；通过交叉注意力机制，对图像模态的向量和文本模态的向量进行跨模态交叉融合处理，得到图像模态的跨模态表征向量和文本模态的跨模态表征向量；基于图像模态的跨模态表征向量和文本模态的跨模态表征向量，输出图像模态和文本模态的相似度。本发明能够提高跨模态检索精度。

技术关键词

跨模态检索方法交叉注意力机制文本编码器图像编码器教师 BERT模型交叉模块标签电子设备可读存储介质预训练模型人工智能技术检索装置

系统为您推荐了相关专利信息

基于多模态文本增强的跨域人脸防伪造检测方法及装置

文本编码器视觉特征图像块特征多模态人脸

大尺度环境下融合相机与激光雷达的位置识别方法

位置识别方法距离图像多模态特征融合描述符视觉特征

一种多模态显式记忆系统、装置、存储介质和程序产品

模态特征跨模态多模态信息记忆系统大语言模型

一种行人重识别方法、设备及介质

重识别方法行人重识别算法行人重识别模型身体监控视频检索技术

虚拟人脸生成方法、系统、电子设备和存储介质

人脸生成方法编码特征音频特征人脸关键点图像生成模型

跨模态检索方法、装置、电子设备及存储介质

站点导航

APP 下载