摘要
本发明公开了一种多模态特征融合的遥感图像描述方法,包括三个步骤:S1提取特征:通过ResNet‑152提取场景级特征,YOLOv8提取对象级特征,通过对比学习进行优化;S2特征增强:提取特征经过图注意力网络和多头注意力机制处理,结合CLIP特征进行增强;S3模型训练:将特征代入transformer中,进行多次训练以增强准确性;S4图像描述,代入遥感图像并最终生成精确的描述。本发明提主要针对现有遥感图像描述技术在复杂环境下难以充分捕捉多尺度、多类型目标的语义信息、难以实现图像与文本描述之间高效对齐,以及对目标识别与描述精度要求不断提高等难题而设计。该方法致力于解决在遥感图像分析中,多样化场景信息、细粒度目标特征以及文本描述的语义一致性不足等问题。
技术关键词
多模态特征融合
多头注意力机制
场景
对象
文本
解码器结构
语义规则
节点特征
图像分析
融合特征
网络
超参数
多尺度
系统为您推荐了相关专利信息
支持向量回归模型
节点
工业互联网安全
时序
网络拓扑关系
交通速度预测方法
地图数据服务器
变量
时序特征
序列
分类模型训练方法
样本
特征提取模块
分类方法
对抗性
音视频采集终端
辅助安装方法
评分算法
终端机
客户端
鲁棒优化调度方法
分布鲁棒优化
风光
联络线功率
变量