摘要
本公开关于一种视觉问答方法、装置、设备、介质及产品,所述视觉问答方法包括:获取目标图像以及与目标图像相关的目标提问数据;对目标提问数据进行解析,得到问题分析程序;基于目标图像,执行问题分析程序,得到针对目标提问数据的预测答案以及问题分析程序的执行过程数据;基于执行过程数据,得到对预测答案的多模态预测解释。根据本公开的视觉问答方法、装置、设备、介质及产品可以解决缺乏对推理任务的推理过程解释而导致模型的透明度不高、用户信任度不高的问题,可以在给出推理任务的预测答案时同步给出预测解释,不仅能够提高模型的透明度和可信度,还可以降低对用户专业性的要求,使得用户更容易阅读和理解这样的多模态解释。
技术关键词
视觉问答方法
数据
答案
多模态
文本
图像
计算机可执行指令
问答装置
自然语言
处理器
电子设备
变量
可读存储介质
透明度
计算机程序产品
分析单元
标记