一种基于通道-空间注意力与Mamba网络的遥感图像字幕生成方法和装置

正文

推荐专利

申请号：CN202510667016

申请日期：2025-05-22

公开号：CN120672902A

公开日期：2025-09-19

类型：发明专利

摘要

本申请提供了一种基于通道‑空间注意力与Mamba网络的遥感图像字幕生成方法和装置，涉及遥感图像处理领域。该方法包括：将遥感图像输入预训练的卷积神经网络，并根据预训练的卷积神经网络输出第一图像特征；将第一图像特征输入至第一模块，并基于第一模块输出第二图像特征；将第二图像特征输入至第二模块，并基于第二模块输出第三图像特征；基于第二图像特征提取全局图像特征，并基于文本特征提取全局文本特征；基于全局图像特征和全局文本特征，结合位置编码和掩码机制，生成图像字幕文本。本申请解决了传统方法在图像内容具有显著结构多样性、语义分布不均或存在局部区域噪声干扰时，生成的遥感图像字幕容易出现表达不准确、语义缺失或冗余描述的问题。

技术关键词

文本图像字幕生成方法图像编码嵌入特征加权特征跨模态模块状态空间模型字幕生成装置语义统计特征通道注意力机制遥感图像处理网络接口图像特征提取

系统为您推荐了相关专利信息

工艺流程图图片至EBPFD模型文件的转换方法及系统

转换方法图片坐标元件大语言模型

一种基于RoBERTa-WWM-ext-BiLSTM-CRF的盾构施工典型风险知识图谱构建方法

知识图谱构建方法典型风险序列掩码策略

用于构建智能体的方法、装置、电子设备、介质

自然语言文本字段语句表单电子设备

一种基于多模态的多语言自定义指令识别方法和系统

自定义指令处理单元识别方法自定义语音指令音频编码器

面向分布式大模型训练的多粒度语义树构建系统及其方法

构建系统语义云服务器样本标签

一种基于通道-空间注意力与Mamba网络的遥感图像字幕生成方法和装置

站点导航

APP 下载