摘要
本发明提供了一种基于视觉语言模型的遥感图像建筑物语义分割系统,该遥感图像建筑物语义分割系统包括初始建筑物掩码生成模块、伪标签优化与模型迭代增强模块;初始建筑物掩码生成模块包括查询文本集合构建单元、特征提取单元、跨模态注意力交互单元、初始建筑物实例生成单元、实例融合与掩码生成单元;伪标签优化与模型迭代增强模块包括伪标签筛选单元、模型迭代训练单元、动态参数调整单元。本发明能够改善VLMs生成的建筑分割伪标签的质量,提升遥感图像弱监督语义分割算法的性能,解决自然场景图像预训练的VLMs生成的建筑物标签无法直接应用于遥感图像的问题,降低遥感图像建筑物语义分割对人工标注的依赖。
技术关键词
语义分割系统
建筑物
特征提取单元
视觉特征
标签
注意力
跨模态
弱监督语义分割
文本编码器
表达式
动态
自然场景图像
元素
矩阵
二值化阈值
参数