一种基于通道-空间注意力与Mamba网络的遥感图像字幕生成方法和装置

AITNT
正文
推荐专利
一种基于通道-空间注意力与Mamba网络的遥感图像字幕生成方法和装置
申请号:CN202510667016
申请日期:2025-05-22
公开号:CN120672902A
公开日期:2025-09-19
类型:发明专利
摘要
本申请提供了一种基于通道‑空间注意力与Mamba网络的遥感图像字幕生成方法和装置,涉及遥感图像处理领域。该方法包括:将遥感图像输入预训练的卷积神经网络,并根据预训练的卷积神经网络输出第一图像特征;将第一图像特征输入至第一模块,并基于第一模块输出第二图像特征;将第二图像特征输入至第二模块,并基于第二模块输出第三图像特征;基于第二图像特征提取全局图像特征,并基于文本特征提取全局文本特征;基于全局图像特征和全局文本特征,结合位置编码和掩码机制,生成图像字幕文本。本申请解决了传统方法在图像内容具有显著结构多样性、语义分布不均或存在局部区域噪声干扰时,生成的遥感图像字幕容易出现表达不准确、语义缺失或冗余描述的问题。
技术关键词
文本 图像字幕生成方法 图像编码 嵌入特征 加权特征 跨模态 模块 状态空间模型 字幕生成装置 语义 统计特征 通道注意力机制 遥感图像处理 网络接口 图像特征提取
系统为您推荐了相关专利信息
1
工艺流程图图片至EBPFD模型文件的转换方法及系统
转换方法 图片 坐标 元件 大语言模型
2
一种基于RoBERTa-WWM-ext-BiLSTM-CRF的盾构施工典型风险知识图谱构建方法
知识图谱构建方法 典型 风险 序列 掩码策略
3
用于构建智能体的方法、装置、电子设备、介质
自然语言文本 字段 语句 表单 电子设备
4
一种基于多模态的多语言自定义指令识别方法和系统
自定义指令 处理单元 识别方法 自定义语音指令 音频编码器
5
面向分布式大模型训练的多粒度语义树构建系统及其方法
构建系统 语义 云服务器 样本 标签
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号