一种生成VQA数据集的方法、装置、电子设备及可读介质

AITNT
正文
推荐专利
一种生成VQA数据集的方法、装置、电子设备及可读介质
申请号:CN202411739564
申请日期:2024-11-29
公开号:CN119829779A
公开日期:2025-04-15
类型:发明专利
摘要
本申请实施例提供了一种生成VQA数据集的方法、装置、电子设备及可读介质,包括:获取收集到的图像数据集;采用视觉语言模型确定针对每张图像提出的计数问题;从每个计数问题中抽取实体词,得到每个计数问题对应的实体词;利用开集目标检测模型检测每个实体词在对应的图像中的位置和数量,得到每个实体词对应的检测信息;其中,检测信息包括位置信息和数量信息;将每个计数问题及其对应的检测信息融合成每个计数问题的目标语句,并将每个计数问题的目标语句作为每个计数问题的答案;利用每张图像、针对每张图像提出的计数问题和每个计数问题的答案,生成VQA数据集,相比于现有的方法,其不仅能够提高生成效率,还能够生成高质量的VQA数据集。
技术关键词
检测信息融合 图像 答案 大语言模型 语句 数据 识别方法 通信接口 电子设备 处理器 视觉 存储器 校园 模块 介质 场景 对象 程序 指令
系统为您推荐了相关专利信息
1
一种基于机器视觉的回收碳纤维品质检测方法
断裂风险 碳纤维束 散射光 高风险 空间分布特征
2
自动灭火方法、系统、电子设备及存储介质
自动灭火方法 温感探测器 图像探测器 自动灭火系统 消防炮系统
3
一种基于STM32的安防无人机系统
安防无人机 人像识别系统 电源管理系统 高密度电池组 传感器系统
4
耳机的控制方法、耳机及存储介质
场景 图像 无线耳机技术 物体 模组
5
一种一致性运动感知能力的训练系统
训练系统 运动 监控设备 人机交互模块 生成训练图像
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号