摘要
本申请实施例公开了一种模型训练方法、装置、存储介质及计算机程序产品,模型处理方法包括:基于视觉不确定性选择每类标准视觉答案对应的高信息量样本图像;基于选择的高信息量样本图像,构建标准视觉答案分布满足期望答案分布的样本集;对样本集中每个高信息量样本图像,进行区域级视觉信息标注;利用每个已标注的高信息量样本图像,对视觉问答模型进行视觉对齐训练;其中,视觉问答模型用于理解图像并回答对图像提出的视觉问题。
技术关键词
视觉问答模型
图像
答案
样本
注意力机制
计算机程序产品
模型训练方法
处理器
存储器
可读存储介质
模块
标记