摘要
本申请公开了一种视觉问答方法、装置、计算机设备及计算机可读存储介质,可以利用问题引导图像实现跨模态交互,使得生成的图像特征融入问题信息,提高模态内和模态间的交互能力。所述方法包括:基于视觉问答模型,确定样本图像的自适应注意力特征图和样本问题的问题特征表示;对自适应注意力特征图和问题特征表示进行跨模态特征融合,确定样本预测答案;根据样本预测答案和样本实际答案之间的损失对视觉问答模型的模型参数进行优化,以及重新获取训练样本对视觉问答模型进行优化,直至视觉问答模型达到停止模型训练的标准,得到目标模型;响应于视觉问答指令,将待预测图像和待预测问题输入至目标模型进行预测,得到待预测问题对应的预测答案。
技术关键词
视觉问答模型
样本
答案
注意力机制
跨模态
视觉问答方法
矩阵
非线性
测试视觉
图像编码器
计算机设备
序列
可读存储介质
正则化技术
参数
问答装置
系统为您推荐了相关专利信息
无人机
预警方法
随机森林模型
城市应急预警系统
基因
生成对抗网络
加噪方法
仿真数据
仿真信号
编码向量
生物识别验证
异常状态
安防智能
入侵检测方法
轨迹
电力系统小干扰
暂态过程
优化搜索算法
建立电力系统
卷积模型