一种基于多模态问答的即插即用开放词汇目标检测方法

AITNT
正文
推荐专利
一种基于多模态问答的即插即用开放词汇目标检测方法
申请号:CN202510690869
申请日期:2025-05-27
公开号:CN120596625A
公开日期:2025-09-05
类型:发明专利
摘要
本发明公开了一种基于多模态问答的即插即用开放词汇目标检测方法,其步骤包括:1)构建即插即用的开放词汇目标检测模型,包括文本感知的主语抽取TASE模块、文本导向的多模态目标定位TMOP模块以及多模态大模型MLLMs驱动的最优目标选择MOOS模块;2)对于输入的查询信息,TASE模块从中抽取若干目标主语并将其输入TMOP模块;3)TMOP模块检测查询信息的图像中每一目标主语对应的候选检测框及其序号,根据检测结果对图像进行标记输入MOOS模块;4)MOOS模块根据图像及标记图像选择图像中每一目标主语对应的检测目标。本发明显著提高了开放词汇OV场景下的检测性能,且不需要额外的训练资源。
技术关键词
多模态 文本 图像 模块 检测器 标记 存储计算机程序 大语言模型 处理器 可读存储介质 存储器 指令 服务器 索引 场景 资源
系统为您推荐了相关专利信息
1
一种有效限制电容器投入涌流的控制方法及系统
电容器 电阻网络 过零点检测 三相电源 主控芯片
2
基于仿真环境生成自动驾驶安全边界模型的方法及装置
仿真数据 环境感知数据 仿真模拟设备 变量 仿真环境
3
一种基于慢性失眠症的个体化rTMS精准干预策略
广义特征值 干预方法 数据 协方差矩阵 广义线性模型
4
基于音视频时域融合的深度伪造检测方法和系统
音频特征 时域卷积网络 注意力 模态特征 残差网络
5
一种用于高速场景自动驾驶车队的联合感知预测方法
注意力 时序 雷达 场景 模态特征
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号