摘要
本发明提供了一种基于多级语义协同匹配的跨模态遥感图文检索方法,包括:通过影像预处理模块利用语义分割算法提取感兴趣区域,将遥感图像分割为多个区域并生成图像块;分别提取影像的全局特征、区域特征和像素级特征,并对细粒度的地物边缘等关键区域进行细粒度编码;文本多级编码模块基于预训练语言模型对文本进行文档、句子、词三级的特征编码,确保对文本的多层次理解;在多级匹配与融合模块中,通过交叉注意力机制计算遥感影像与文本描述的相似度,并对各级特征进行加权融合,最终输出检索得分。此方法不仅提升了图文检索的准确性和鲁棒性,还能够广泛应用于遥感监测、环境变化识别及地理信息系统等领域。
技术关键词
图文检索方法
语义协同
交叉注意力机制
语义分割算法
视觉注意力机制
像素
区域特征提取
预训练语言模型
感兴趣
全局特征提取
Sobel边缘检测
文本
图像分割
动态融合机制
图像块
多层次
滑动窗口方法
影像