摘要
本发明提供的指代表达理解数据生成方法、装置、存储介质及电子设备,应用于数据处理技术领域。本发明通过获取标注有目标标注框的目标检测图像,将其输入多模态大语言模型,利用预设查询语句自动生成指定类别目标的文本描述;随后,将生成的文本描述与目标检测图像一并输入指代表达理解模型,依据文本描述生成初始边界框,并计算其与图像中各目标标注框的交并比,选取交并比最高的标注框作为目标边界框;最终结合目标边界框与文本描述,生成与目标检测图像对应的指代表达理解数据。本发明有效整合多模态大语言模型与指代表达理解模型,实现了指代表达理解数据的高效自动化生成,显著提升数据构建的效率和准确性。
技术关键词
大语言模型
数据生成方法
代表
图像
文本
多模态
数据生成装置
电子设备
语句
处理器
数据处理技术
存储器
可读存储介质
程序
计算机
策略
指令