摘要
本发明提供了一种基于生成对抗与样本优化的视觉问答方法及系统,涉及视觉问答技术领域,所述方法包括:获取视觉问答任务中的问题和图像;将问题和图像输入训练好的视觉问答模型中,得到视觉问答结果;其中,视觉问答模型基于生成器构建偏差模型,将随机噪声向量转化为与图像特征表示相同维度的偏差特征,并根据输入的问题与偏差特征生成偏差答案向量;基于判别器区分答案的真假;通过生成器和判别器的交替训练,使偏差模型的答案分布逼近目标模型的答案分布;以最大化视觉问答模型对正确答案的预测概率为目标,联合训练生成对抗网络和视觉问答模型。本发明能够提升模型的多模态推理能力。
技术关键词
视觉问答模型
视觉问答方法
生成对抗网络
答案
偏差
样本
随机噪声
图像
多模态
视觉问答技术
策略
问答系统
计算机程序产品
处理器
标签
指令
可读存储介质
存储器
系统为您推荐了相关专利信息
管式空气预热器
监控方法
矩阵
加热炉
历史运行数据
智能船舶
航向控制方法
模糊PID控制器
模糊控制器
模糊逻辑