跨模态检索方法、装置、电子设备及存储介质

AITNT
正文
推荐专利
跨模态检索方法、装置、电子设备及存储介质
申请号:CN202411602767
申请日期:2024-11-11
公开号:CN119597939A
公开日期:2025-03-11
类型:发明专利
摘要
本发明适用于人工智能技术领域,提供了一种跨模态检索方法、装置、电子设备及存储介质,该方法包括:通过图像编码器对图像模态进行编码,通过文本编码器对文本模态进行编码,生成高维空间的向量表示;将图像模态的向量和文本模态的向量输入到同一个共享自注意力层进行对齐,并分别通过各自的前馈网络层提取特征;通过交叉注意力机制,对图像模态的向量和文本模态的向量进行跨模态交叉融合处理,得到图像模态的跨模态表征向量和文本模态的跨模态表征向量;基于图像模态的跨模态表征向量和文本模态的跨模态表征向量,输出图像模态和文本模态的相似度。本发明能够提高跨模态检索精度。
技术关键词
跨模态检索方法 交叉注意力机制 文本编码器 图像编码器 教师 BERT模型 交叉模块 标签 电子设备 可读存储介质 预训练模型 人工智能技术 检索装置
系统为您推荐了相关专利信息
1
基于多模态文本增强的跨域人脸防伪造检测方法及装置
文本编码器 视觉特征 图像块特征 多模态 人脸
2
大尺度环境下融合相机与激光雷达的位置识别方法
位置识别方法 距离图像 多模态特征融合 描述符 视觉特征
3
一种多模态显式记忆系统、装置、存储介质和程序产品
模态特征 跨模态 多模态信息 记忆系统 大语言模型
4
一种行人重识别方法、设备及介质
重识别方法 行人重识别算法 行人重识别模型 身体 监控视频检索技术
5
虚拟人脸生成方法、系统、电子设备和存储介质
人脸生成方法 编码特征 音频特征 人脸关键点 图像生成模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号