摘要
本申请提供了一种基于通道‑空间注意力与Mamba网络的遥感图像字幕生成方法和装置,涉及遥感图像处理领域。该方法包括:将遥感图像输入预训练的卷积神经网络,并根据预训练的卷积神经网络输出第一图像特征;将第一图像特征输入至第一模块,并基于第一模块输出第二图像特征;将第二图像特征输入至第二模块,并基于第二模块输出第三图像特征;基于第二图像特征提取全局图像特征,并基于文本特征提取全局文本特征;基于全局图像特征和全局文本特征,结合位置编码和掩码机制,生成图像字幕文本。本申请解决了传统方法在图像内容具有显著结构多样性、语义分布不均或存在局部区域噪声干扰时,生成的遥感图像字幕容易出现表达不准确、语义缺失或冗余描述的问题。
技术关键词
文本
图像字幕生成方法
图像编码
嵌入特征
加权特征
跨模态
模块
状态空间模型
字幕生成装置
语义
统计特征
通道注意力机制
遥感图像处理
网络接口
图像特征提取
系统为您推荐了相关专利信息
自定义指令
处理单元
识别方法
自定义语音指令
音频编码器