摘要
本发明公开了一种基于双模态变换和共识感知的遥感视觉问答方法,包括:1、通过基于CLIP模型的图像以及文本特征提取网络得到图像以及文本特征表示;2、通过自注意力处理模块、共同注意机制模块获得具有视觉和文本表示内部及其之间的依赖关系的文本特征表示以及图片特征表示;3、构建基于图卷积神经网络的知识特征提取网络提取共现知识特征表示;4、通过特征融合网络得到综合表征特征;5、通过交叉熵损失函数以更新网络参数,以此训练得到最优匹配模型。本发明通过基于图卷积神经网络的知识特征提取网络提取共现知识特征表示,挖掘了深层次的文本知识,大大提高了文本信息的利用效率,从而大大提高了遥感视觉问答的准确率。
技术关键词
视觉问答方法
答案
特征提取网络
文本
注意力机制
特征融合网络
概念
视觉问答模型
双模态
更新网络参数
图像特征提取
索引
特征提取模块
可读存储介质
标签
处理器
系统为您推荐了相关专利信息
印章识别方法
生成训练样本
训练样本集
注意力机制
空洞
查询特征
跨模态
定位方法
解码模块
特征提取模块
数据分析方法
专用数据库
实体识别模型
风险
计算机可执行指令