一种生成VQA数据集的方法、装置、电子设备及可读介质

正文

推荐专利

申请号：CN202411739564

申请日期：2024-11-29

公开号：CN119829779A

公开日期：2025-04-15

类型：发明专利

摘要

本申请实施例提供了一种生成VQA数据集的方法、装置、电子设备及可读介质，包括：获取收集到的图像数据集；采用视觉语言模型确定针对每张图像提出的计数问题；从每个计数问题中抽取实体词，得到每个计数问题对应的实体词；利用开集目标检测模型检测每个实体词在对应的图像中的位置和数量，得到每个实体词对应的检测信息；其中，检测信息包括位置信息和数量信息；将每个计数问题及其对应的检测信息融合成每个计数问题的目标语句，并将每个计数问题的目标语句作为每个计数问题的答案；利用每张图像、针对每张图像提出的计数问题和每个计数问题的答案，生成VQA数据集，相比于现有的方法，其不仅能够提高生成效率，还能够生成高质量的VQA数据集。

技术关键词

检测信息融合图像答案大语言模型语句数据识别方法通信接口电子设备处理器视觉存储器校园模块介质场景对象程序指令

系统为您推荐了相关专利信息

一种基于机器视觉的回收碳纤维品质检测方法

断裂风险碳纤维束散射光高风险空间分布特征

自动灭火方法、系统、电子设备及存储介质

自动灭火方法温感探测器图像探测器自动灭火系统消防炮系统

一种基于STM32的安防无人机系统

安防无人机人像识别系统电源管理系统高密度电池组传感器系统

耳机的控制方法、耳机及存储介质

场景图像无线耳机技术物体模组

一种一致性运动感知能力的训练系统

训练系统运动监控设备人机交互模块生成训练图像

一种生成VQA数据集的方法、装置、电子设备及可读介质

站点导航

APP 下载