一种多尺度语义感知的遥感图像-文本检索方法

正文

推荐专利

申请号：CN202511104792

申请日期：2025-08-07

公开号：CN121030029A

公开日期：2025-11-28

类型：发明专利

摘要

本发明涉及自然语言处理及多模态深度学习技术领域，且公开了一种多尺度语义感知的遥感图像‑文本检索方法，包括双分支特征编码、模态内特征增强、跨模态语义感知和多尺度语义融合四个模块。输入图像‑文本对首先送入双分支特征编码模块，提取3组不同尺度的图像和文本特征；随后，将多尺度特征依次输入模态内特征增强模块；接下来，跨模态语义感知模块为每个尺度引入一组可学习语义token，通过交叉注意力机制与增强后的多模态特征进行交互；最后将图像和文本语义输入多尺度语义融合模块，基于融合的结果进行匹配。这种基于多尺度语义引导的检索方法，为模型提供多尺度图文互补信息和充分的语义线索来理解图像和文本之间的层次相关性，能够显著提高遥感图文跨模态检索的准确性。

技术关键词

文本检索方法语义图像联合注意力机制编码模块跨模态交叉注意力机制编码器输入多尺度深度学习技术窗口结构分支模态特征通道图文

系统为您推荐了相关专利信息

一种腹腔镜手术剪裁操作的训练方法及系统

腹腔镜手术训练系统图像处理模块计算机视觉算法锯齿状边缘

一种基于三维虚拟围栏的区域报警方法及相关装置

虚拟围栏相机摄像头区域报警方法结构光区域位置信息

一种面向矿区装料场的无人卡车路径规划方法

路径规划方法静态障碍物列表装料节点

基于AI Agent的业务流程决策节点智能化处理方法及系统

机器人决策节点业务流程管理任务调度

超特高压隔离开关运行状态的确定方法、装置及存储介质

特高压隔离开关图像特征向量更新模型参数开关运行状态场景

一种多尺度语义感知的遥感图像-文本检索方法

站点导航

APP 下载