摘要
本发明提供了一种视觉问答数据增强方法、装置、设备及存储介质,属于人工智能技术领域,包括获取视觉问答任务的原始数据集;提取原始问题中用于描述原始图像中物体的目标名词,将目标名词输入大语言模型,通过大语言模型生成多个与目标名词相关的新问答对,将新问答对和原始问答对进行合并得到增强后的文本提示;根据数据增强后的文本提示,对原始图像进行目标检测,得到文本提示对应物体的边界框,基于边界框对图像进行分割提取,得到分割掩码图像;根据分割掩码图像及数据增强后的文本提示对原始图像进行重绘,得到增强后的图像。该方法能够得到更高质量的视觉问答数据,从而提高视觉问答模型的准确性,减少VQA中的语言偏差问题。
技术关键词
视觉问答模型
大语言模型
文本
物体
数据
图像增强模块
人工智能技术
标签
处理器
计算机设备
可读存储介质
存储器
动态
答案
偏差
程序