摘要
本申请实施例提供了一种答案确定方法、装置、电子设备及存储介质。方法包括:得到目标图像中存在的各原始文本、各原始文本的多模态特征;从多个原始文本中确定属于目标问题的答案的文本作为备选文本;在各原始文本中确定目标文本对应的上下文文本;根据目标文本对应的各上下文文本的多模态特征、目标文本的语义特征,预测得到目标文本的目标概率,并预测得到目标图像中目标文本的位置处的文本,作为目标文本对应的预测文本;确定目标概率满足预设低概率条件的目标文本,并将其替换为对应的预测文本,将替换后的备选文本作为目标问题的答案。可以提高了视觉问答预测出的目标问题的答案的准确性。
技术关键词
文本
上下文特征
语义特征
样本
图像
视觉特征
答案
预训练模型
多模态特征
电子设备
可读存储介质
参数
识别模块
存储器
计算机
处理器
关系