摘要
本发明公开了一种基于对比掩码跨模态哈希学习的降质图像‑文本检索方法,该方法为:首先使用随机增强策略对数据进行增强,使用块级掩码策略处理强增强数据,获得图像和文本的增强视图和掩码视图;然后分别提取图像和文本特征,经过交叉注意力模块后输入哈希层得到图像和文本的哈希码;采用多模态对比损失和基于代理的相似性度量损失,利用原始数据特征语义信息重建被掩码数据特征,设计语义掩码重建交叉熵损失,并加入量化损失,确定总体目标函数,通过反向传播更新模型参数;最后使用训练好的模型参数,进行降质图像‑文本检索。本发明提升了在图像模糊、文本缺失等复杂场景下的跨模态检索的精度。
技术关键词
文本检索方法
图像块特征
跨模态
注意力
多模态
更新模型参数
掩码策略
文本编码器
样本
序列
输出特征
语义
相似性度量学习
Softmax函数
同义词
定义
三元组
系统为您推荐了相关专利信息
语义识别系统
注意力机制
归一化模块
语义识别方法
术语
图像智能识别
故障检测方法
故障检测系统
水平垂直翻转
线路
库存管理系统
订单
量子退火算法
动态仓库
时序预测模型
建筑物提取方法
遥感图像数据
无人机
图像块
注意力机制
监护终端设备
窗帘开合控制
设备状态信息
风险评估值
多模态