基于多窗口注意力机制的跨模态图文检索方法

AITNT
正文
推荐专利
基于多窗口注意力机制的跨模态图文检索方法
申请号:CN202510495885
申请日期:2025-04-21
公开号:CN120011609A
公开日期:2025-05-16
类型:发明专利
摘要
本发明属于图文检索技术领域,公开了基于多窗口注意力机制的跨模态图文检索方法,包括S1、数据预处理与嵌入:对图像和文本进行预处理,转化为向量矩阵;S2、图像和文本特征提取:对图像向量矩阵,利用基于多窗口注意力机制的Transformer模块提取图像块的局部和全局特征,得到视觉特征矩阵;对文本向量矩阵提取文本特征;S3、跨模态语义对齐和语义相似度计算:将视觉特征矩阵和文本特征矩阵进行跨模态语义对齐,采用交叉‑映射对齐网络得到图像块和文本单词的细粒度语义关系矩阵;实现两种模态间的映射表示和语义对齐并计算图像和文本的语义相似度;S4、输出检索结果。通过本发明提高图文匹配和检索效果。
技术关键词
图文检索方法 注意力机制 矩阵 多窗口 图像块 视觉特征 语义 跨模态 分支 关系 度量 文本特征向量 锚点 上下文特征 检索技术
系统为您推荐了相关专利信息
1
一种大尺度空间焊缝移动机械臂自动跟踪系统及方法
移动机械臂 自动跟踪方法 移动底盘 视觉传感器 六自由度机械臂
2
一种用于多旋翼无人机目标检测的方法
多旋翼无人机 网络 空间金字塔池化 注意力机制 多尺度特征提取
3
基于混合机器学习和深度学习的客户成交预测方法
客户 时序特征 预测模型训练 融合多模态特征 机器学习架构
4
道路交通拥堵疏解方法、计算机设备和可读存储介质
车流平均速度 交通拥堵状态 道路交通数据 模糊隶属度 转移概率矩阵
5
基于图全景注意力增强的金属结合位点突变效应预测方法
效应预测方法 注意力 神经网络框架 矩阵 位点
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号