基于预训练模型的文本到行人图像检索方法及存储介质

正文

推荐专利

申请号：CN202411061423

申请日期：2024-08-05

公开号：CN118887703A

公开日期：2024-11-01

类型：发明专利

摘要

本发明公开了一种基于预训练模型的跨模态文本到行人图像检索方法及存储介质，本发明改进了掩蔽语言建模策略，使用全词掩码策略，能够更好的挖掘图像与文本之间的细粒度关系。并且运用文本的属性这一特征，利用交叉模态编码器进行文本与图像之间的融合交互，以此学习更多的信息，进一步还提供了一个基于软注意力模态融合模块，加入此模块可以促进相同语义类别间的模态信息交互，从而达到更好的检索性能。

技术关键词

图像检索方法预训练模型图像检索模型文本编码器非暂态计算机可读存储介质注意力掩码策略图像编码器图文模块语义处理器关系

系统为您推荐了相关专利信息

一种基于分段频域注意力融合的古筝缺陷智能识别方法

古筝缺陷智能预训练模型识别方法注意力

音效生成方法及系统

音效生成方法大语言模型标签非暂态计算机可读存储介质生成文本内容

基于多模态大模型文本提示的无监督CT图像去噪方法及装置

CT图像去噪方法多模态文本编解码结构降噪模块

终端远程升级方法、系统、设备、存储介质及程序产品

窄带物联网终端终端远程升级方法网络负载信息混合整数规划鲸鱼优化算法

带钢牵引参数确定方法、装置、电子设备及介质

区域智能识别双线阵相机深度学习模型带钢头部点云

基于预训练模型的文本到行人图像检索方法及存储介质

站点导航

APP 下载