摘要
本申请公开了一种基于视觉语言知识推理的建筑物功能识别方法、装置、系统及介质,其中方法包括对建筑物遥感图像进行特征提取,得到全局上下文特征图,将全局上下文特征图输入多层感知器中,得到初始类别概率图;识别初始类别概率图中的分类不确定性区域,得到建筑物边缘轮廓中各节点的拓扑结构特征,根据拓扑结构特征对全局上下文特征图进行修正,得到全局视觉特征向量;将与建筑物遥感图像对应的文本描述数据进行编码得到全局语义特征向量;将全局视觉特征向量和全局语义特征向量进行对齐,得到全局特征向量,将全局特征向量输入建筑物功能分类模型中,得到建筑物功能识别结果。本申请提供的方法,提高了遥感图像建筑物功能识别的准确性。
技术关键词
功能识别方法
建筑物
拓扑结构特征
上下文特征
图像
卷积运算方法
多层感知器
多模态
边缘轮廓
注意力机制
误差统计
机器学习算法
可读存储介质
节点
视觉特征提取
语义特征提取
文本
编码