摘要
本公开关于视觉问答方法、装置、电子设备、存储介质和计算机程序产品,该方法包括:获取目标图像以及针对目标图像的目标问题;基于目标问题,生成初始程序;向初始程序添加用于记录程序执行过程的目标代码;将目标图像输入扩展程序,获得针对目标问题的预测答案、扩展程序的执行过程信息以及截图图像;基于执行过程信息和截图图像,生成针对预测答案的多模态形式的解释。这样,可以在输出预测答案的同时同步生成决策依据图片以及语义关联分析,即可以增加输出对预测答案的推理过程的解释,使用户能够直观地了解图像特征与语义推理的对应关系,进而可以提升推理透明度和决策可信度,从而有利于视觉问答技术的推广应用。
技术关键词
视觉问答方法
答案
图像
应用程序编程接口
程序生成模块
计算机程序产品
自然语言
裁剪工具
视觉问答技术
电子设备
多模态
文本
处理器
可读存储介质
问答装置
大语言模型
扩展模块
检测器
对象
系统为您推荐了相关专利信息
实例分割方法
温室番茄
特征金字塔
掩膜
实例分割算法
层次化语义
注意力
RGB特征
多尺度特征
输出特征
三角网格模型
织物外观
双目立体相机
织物试样
棋盘格标定