摘要
本发明公开了一种基于答案引导的视觉常识推理去偏方法及系统,涉及视觉常识推理技术领域,包括以下步骤:获取图片与原始文本,将图片与原始文本进行配对,得到负样本,提取负样本内图片和问题以及答案文本;将图片和问题输入至预先建立的图片编码器内,输出得到图片编码特征,将答案文本输入至预先建立的文本编码器内,输出得到文本编码特征,将图片编码特征和文本编码特征通过单模态特征处理以及模态间特征融合,得到多模态特征;接收视觉常识推理数据集,抽取视觉常识推理数据集内的正确候选答案,生成去偏特征样本集,提取去偏特征样本集内特征,作为答案特征;将多模态特征与答案特征经过注意力机制,计算得到融合特征,基于融合特征计算得出候选答案的概率,将候选答案的概率最高的候选答案作为预测答案。
技术关键词
答案
编码特征
融合特征
图片
文本编码器
样本
视觉
多模态特征
特征融合方法
注意力机制
处理器
可读存储介质
特征提取模块
数据
存储器
终端设备
系统为您推荐了相关专利信息
命名实体识别方法
层级
代表
命名实体识别系统
跨模态
短期负荷预测
负荷特征
融合特征
引入注意力机制
记忆单元
地下电缆
缺陷识别方法
缺陷类别
多模态
编码特征
车辆故障诊断
深度学习模型
信号采集单元
多尺度注意力机制
噪声