摘要
基于图片映射器和文本自遮掩映射器的组合图像检索方法,包括:先对输入的图片进行缩放加噪等操作,然后输入到冻结的预训练图像编码器中,得到图像特征利用图像映射器将图像特征转化成伪词标记s1,利用文本自遮掩映射器将图像特征转化成伪词标记s2,分别将其替换预先提供的提示文本中的标记符号,并将输入的修改文本拼接到提示文本之后,得到两个新的文本x1,x2。将文本x1,x2分别输入到冻结的预训练文本编码器中,得到两个特征,将两个特征进行均值融合,最后将得到的均值特征与目标图像进行对比。本发明既解决了使用昂贵三元组训练组合图像检索模型的缺点,也提高了模型对组合图像检索下游任务的泛化能力。
技术关键词
图像检索方法
图片
文本编码器
关键词
梯度下降算法
标记
自然语言
图像检索模型
传播算法
符号
噪声
图像编码器
关键字
列表
网络
表达式
融合特征
数据
系统为您推荐了相关专利信息
智能门锁开启方法
人脸特征模型
人脸识别信息
开锁机制
场景
贝叶斯神经网络
基线
小区间
样本
神经网络模型训练
中文文本
跨度
注意力机制
双向长短期记忆网络
命名实体识别模型