摘要
本申请实施例提供了一种生成VQA数据集的方法、装置、电子设备及可读介质,包括:获取收集到的图像数据集;采用视觉语言模型确定针对每张图像提出的计数问题;从每个计数问题中抽取实体词,得到每个计数问题对应的实体词;利用开集目标检测模型检测每个实体词在对应的图像中的位置和数量,得到每个实体词对应的检测信息;其中,检测信息包括位置信息和数量信息;将每个计数问题及其对应的检测信息融合成每个计数问题的目标语句,并将每个计数问题的目标语句作为每个计数问题的答案;利用每张图像、针对每张图像提出的计数问题和每个计数问题的答案,生成VQA数据集,相比于现有的方法,其不仅能够提高生成效率,还能够生成高质量的VQA数据集。
技术关键词
检测信息融合
图像
答案
大语言模型
语句
数据
识别方法
通信接口
电子设备
处理器
视觉
存储器
校园
模块
介质
场景
对象
程序
指令
系统为您推荐了相关专利信息
自动灭火方法
温感探测器
图像探测器
自动灭火系统
消防炮系统
安防无人机
人像识别系统
电源管理系统
高密度电池组
传感器系统
训练系统
运动
监控设备
人机交互模块
生成训练图像