摘要
本发明公开了一种基于预训练模型的跨模态文本到行人图像检索方法及存储介质,本发明改进了掩蔽语言建模策略,使用全词掩码策略,能够更好的挖掘图像与文本之间的细粒度关系。并且运用文本的属性这一特征,利用交叉模态编码器进行文本与图像之间的融合交互,以此学习更多的信息,进一步还提供了一个基于软注意力模态融合模块,加入此模块可以促进相同语义类别间的模态信息交互,从而达到更好的检索性能。
技术关键词
图像检索方法
预训练模型
图像检索模型
文本编码器
非暂态计算机可读存储介质
注意力
掩码策略
图像编码器
图文
模块
语义
处理器
关系
系统为您推荐了相关专利信息
音效生成方法
大语言模型
标签
非暂态计算机可读存储介质
生成文本内容
CT图像去噪方法
多模态
文本
编解码结构
降噪模块
窄带物联网终端
终端远程升级方法
网络负载信息
混合整数规划
鲸鱼优化算法
区域智能识别
双线阵相机
深度学习模型
带钢头部
点云