摘要
本发明公开了一种基于混合注意力机制的跨模态检索方法及系统,本发明的方法包括基于ConvNeXt和BERT模型进行图像及对应的文本的特征提取,并根据提取的特征进行多模态特征聚合得到对应的粗粒度特征;基于粗粒度特征将BERT的中间层输出与ConvNeXt的顶层输出进行跨层对齐,并将BERT的顶层输出和ConvNeXt的顶层输出进行层次化对齐,以得到图像‑文本对齐结果;基于图像‑文本对齐结果通过采用粗粒度召回和细粒度检索的分层推理策略进行跨模态检索。本发明通过有效的语义过滤机制提炼关键信息,实现更准确的跨模态检索,提高检索的准确率和效率。
技术关键词
多模态特征
文本
图像
模态检索方法
注意力机制
中间层
跨模态
矩阵
分层
检索系统
对齐模块
语义
策略
系统为您推荐了相关专利信息
高分辨率遥感图像
分类系统
多模态
通道注意力机制
数据
控制测试执行
适配测试方法
计算机系统
脚本
控件