摘要
本发明涉及图像描述方法和图像融合方法,尤其涉及多波段图像自动描述方法,具体为基于内存增强和软掩膜的多波段图像自动描述方法。将可见光图像特征、红外图像特征以及文本特征置于同一表征层级,在传统Transformer的基础上,构建内存增强模块用于存储多波段图像特征间的内在相关性以及语言上下文信息;同时,利用软掩膜机制筛选有效的视觉特征向量以及内存中存储的特征向量,以确保模型精确聚焦于关键视觉信息或语言上下文信息,可用于安防监控和军事侦察等复杂场景理解。
技术关键词
内存
红外图像特征
可见光图像
掩膜
多波段
多模态特征
关键视觉信息
图像融合方法
多头注意力机制
文本
解码器
阶段
输出特征
自然语言
指标
标记
系统为您推荐了相关专利信息
数据存储区域
数据处理方法
数据处理系统
模块
处理器
自主定位方法
可见光图像
动态场景
坐标系
特征点
语义分割模型
AR实景导航
实景导航方法
交通场景图像
卷积模块
多级反馈队列
硬件加速器
粒子群算法优化
动态调度算法
反馈调节机制