摘要
本发明公开了一种基于空间预测型视觉语言预训练模型的跨模态图文检索方法及存储介质,所述方法通过将局部语义预测视觉空间位置引入到视觉语言预训练模型中,使预训练模型能够学习到更有效的高级语义,有效提升下游跨模态图文检索任务的性能;利用基于空间预测型视觉语言预训练模型对下游图文检索数据进行特征提取,构建四元组损失函数并执行有监督跨模态图文检索;利用四元组构造模块挖掘与正样本具有强语义关联假负例样本,减少了假负例样本对图文检索的影响。
技术关键词
预训练模型
图文检索方法
跨模态图文检索
图像块特征
特征提取器
非暂态计算机可读存储介质
相似性度量函数
视觉
重叠面积
文本
语义
样本
模块
因子
处理器
数据
系统为您推荐了相关专利信息
冗余数据处理方法
预训练模型
高温度
数据输入模块
数据处理系统
点云提取方法
三维点云数据
标准化方法
道路特征
预训练模型
神经网络结构
传感器设备
一维卷积神经网络
信号特征
构建分类器