一种基于多模态问答的即插即用开放词汇目标检测方法

正文

推荐专利

申请号：CN202510690869

申请日期：2025-05-27

公开号：CN120596625A

公开日期：2025-09-05

类型：发明专利

摘要

本发明公开了一种基于多模态问答的即插即用开放词汇目标检测方法，其步骤包括：1)构建即插即用的开放词汇目标检测模型，包括文本感知的主语抽取TASE模块、文本导向的多模态目标定位TMOP模块以及多模态大模型MLLMs驱动的最优目标选择MOOS模块；2)对于输入的查询信息，TASE模块从中抽取若干目标主语并将其输入TMOP模块；3)TMOP模块检测查询信息的图像中每一目标主语对应的候选检测框及其序号，根据检测结果对图像进行标记输入MOOS模块；4)MOOS模块根据图像及标记图像选择图像中每一目标主语对应的检测目标。本发明显著提高了开放词汇OV场景下的检测性能，且不需要额外的训练资源。

技术关键词

多模态文本图像模块检测器标记存储计算机程序大语言模型处理器可读存储介质存储器指令服务器索引场景资源

系统为您推荐了相关专利信息

一种有效限制电容器投入涌流的控制方法及系统

电容器电阻网络过零点检测三相电源主控芯片

基于仿真环境生成自动驾驶安全边界模型的方法及装置

仿真数据环境感知数据仿真模拟设备变量仿真环境

一种基于慢性失眠症的个体化rTMS精准干预策略

广义特征值干预方法数据协方差矩阵广义线性模型

基于音视频时域融合的深度伪造检测方法和系统

音频特征时域卷积网络注意力模态特征残差网络

一种用于高速场景自动驾驶车队的联合感知预测方法

注意力时序雷达场景模态特征

一种基于多模态问答的即插即用开放词汇目标检测方法

站点导航

APP 下载