基于多窗口注意力机制的跨模态图文检索方法

正文

推荐专利

申请号：CN202510495885

申请日期：2025-04-21

公开号：CN120011609A

公开日期：2025-05-16

类型：发明专利

摘要

本发明属于图文检索技术领域，公开了基于多窗口注意力机制的跨模态图文检索方法，包括S1、数据预处理与嵌入：对图像和文本进行预处理，转化为向量矩阵；S2、图像和文本特征提取：对图像向量矩阵，利用基于多窗口注意力机制的Transformer模块提取图像块的局部和全局特征，得到视觉特征矩阵；对文本向量矩阵提取文本特征；S3、跨模态语义对齐和语义相似度计算：将视觉特征矩阵和文本特征矩阵进行跨模态语义对齐，采用交叉‑映射对齐网络得到图像块和文本单词的细粒度语义关系矩阵；实现两种模态间的映射表示和语义对齐并计算图像和文本的语义相似度；S4、输出检索结果。通过本发明提高图文匹配和检索效果。

技术关键词

图文检索方法注意力机制矩阵多窗口图像块视觉特征语义跨模态分支关系度量文本特征向量锚点上下文特征检索技术

系统为您推荐了相关专利信息

一种大尺度空间焊缝移动机械臂自动跟踪系统及方法

移动机械臂自动跟踪方法移动底盘视觉传感器六自由度机械臂

一种用于多旋翼无人机目标检测的方法

多旋翼无人机网络空间金字塔池化注意力机制多尺度特征提取

基于混合机器学习和深度学习的客户成交预测方法

客户时序特征预测模型训练融合多模态特征机器学习架构

道路交通拥堵疏解方法、计算机设备和可读存储介质

车流平均速度交通拥堵状态道路交通数据模糊隶属度转移概率矩阵

基于图全景注意力增强的金属结合位点突变效应预测方法

效应预测方法注意力神经网络框架矩阵位点

基于多窗口注意力机制的跨模态图文检索方法

站点导航

APP 下载