摘要
本发明涉及自然语言处理及多模态深度学习技术领域,且公开了一种多尺度语义感知的遥感图像‑文本检索方法,包括双分支特征编码、模态内特征增强、跨模态语义感知和多尺度语义融合四个模块。输入图像‑文本对首先送入双分支特征编码模块,提取3组不同尺度的图像和文本特征;随后,将多尺度特征依次输入模态内特征增强模块;接下来,跨模态语义感知模块为每个尺度引入一组可学习语义token,通过交叉注意力机制与增强后的多模态特征进行交互;最后将图像和文本语义输入多尺度语义融合模块,基于融合的结果进行匹配。这种基于多尺度语义引导的检索方法,为模型提供多尺度图文互补信息和充分的语义线索来理解图像和文本之间的层次相关性,能够显著提高遥感图文跨模态检索的准确性。
技术关键词
文本检索方法
语义
图像
联合注意力机制
编码模块
跨模态
交叉注意力机制
编码器
输入多尺度
深度学习技术
窗口结构
分支
模态特征
通道
图文
系统为您推荐了相关专利信息
腹腔镜手术
训练系统
图像处理模块
计算机视觉算法
锯齿状边缘
虚拟围栏
相机摄像头
区域报警方法
结构光
区域位置信息
特高压隔离开关
图像特征向量
更新模型参数
开关运行状态
场景