摘要
本申请公开了一种基于二部图匹配的视觉问答方法及设备,涉及图像处理技术领域,该方法包括:构建问题特征向量、关键字图和场景图;利用图注意力网络确定关键字图节点特征和场景图节点特征;基于关键字图节点特征和场景图节点特征,利用匈牙利算法确定场景图主效应节点特征和场景图负作用节点特征;利用多模态融合策略,将问题特征向量分别与场景图节点特征、场景图主效应节点特征和场景图负作用节点特征进行融合,得到多个联合特征;将多个问题特征向量输入到分类器中,得到问题的预测概率分布。本申请通过确定场景图主效应节点特征和场景图负作用节点特征,提高视觉问答模型的鲁棒性。
技术关键词
节点特征
视觉问答方法
关键字
场景
注意力
匈牙利算法
关键词
融合策略
效应
网络
分类器
视觉问答模型
文本
编码
多模态
矩阵
图片
图像处理技术
多层感知机
系统为您推荐了相关专利信息
决策规划方法
车辆决策模型
场景
交通
长短期记忆网络
多分辨率特征
全局特征提取
特征提取单元
矿石
图像识别方法
设备故障检测方法
多尺度特征提取
图像
注意力
检测设备