摘要
本发明公开了一种基于多模态问答的即插即用开放词汇目标检测方法,其步骤包括:1)构建即插即用的开放词汇目标检测模型,包括文本感知的主语抽取TASE模块、文本导向的多模态目标定位TMOP模块以及多模态大模型MLLMs驱动的最优目标选择MOOS模块;2)对于输入的查询信息,TASE模块从中抽取若干目标主语并将其输入TMOP模块;3)TMOP模块检测查询信息的图像中每一目标主语对应的候选检测框及其序号,根据检测结果对图像进行标记输入MOOS模块;4)MOOS模块根据图像及标记图像选择图像中每一目标主语对应的检测目标。本发明显著提高了开放词汇OV场景下的检测性能,且不需要额外的训练资源。
技术关键词
多模态
文本
图像
模块
检测器
标记
存储计算机程序
大语言模型
处理器
可读存储介质
存储器
指令
服务器
索引
场景
资源
系统为您推荐了相关专利信息
仿真数据
环境感知数据
仿真模拟设备
变量
仿真环境
广义特征值
干预方法
数据
协方差矩阵
广义线性模型
音频特征
时域卷积网络
注意力
模态特征
残差网络