摘要
本发明属于图文检索技术领域,公开了基于多窗口注意力机制的跨模态图文检索方法,包括S1、数据预处理与嵌入:对图像和文本进行预处理,转化为向量矩阵;S2、图像和文本特征提取:对图像向量矩阵,利用基于多窗口注意力机制的Transformer模块提取图像块的局部和全局特征,得到视觉特征矩阵;对文本向量矩阵提取文本特征;S3、跨模态语义对齐和语义相似度计算:将视觉特征矩阵和文本特征矩阵进行跨模态语义对齐,采用交叉‑映射对齐网络得到图像块和文本单词的细粒度语义关系矩阵;实现两种模态间的映射表示和语义对齐并计算图像和文本的语义相似度;S4、输出检索结果。通过本发明提高图文匹配和检索效果。
技术关键词
图文检索方法
注意力机制
矩阵
多窗口
图像块
视觉特征
语义
跨模态
分支
关系
度量
文本特征向量
锚点
上下文特征
检索技术
系统为您推荐了相关专利信息
移动机械臂
自动跟踪方法
移动底盘
视觉传感器
六自由度机械臂
多旋翼无人机
网络
空间金字塔池化
注意力机制
多尺度特征提取
客户
时序特征
预测模型训练
融合多模态特征
机器学习架构
车流平均速度
交通拥堵状态
道路交通数据
模糊隶属度
转移概率矩阵