摘要
本发明公开了多模态目标检测方法、系统、设备、存储介质和程序产品,所述方法包括利用多模态大模型对输入图像进行密集小目标的粗检测,获得小目标粗检测结果;基于小目标粗检测结果,利用多模态小模型对输入图像进行密集小目标的精检测获得小目标精检测结果;基于矩形框聚类分析,利用多模态大模型对小目标精检测结果进行智能校正,获得最终检测结果。本发明能够在无需预定义类别的情况下,对密集小目标进行开集检测,准确识别和定位图像中密集分布的未知小目标。
技术关键词
多模态
编码特征
词特征
编码模块
视觉
检测头
图像分割模型
生成多尺度
子模块
跨模态
注意力机制
动态门控
加权特征
基础
特征提取模块
系统为您推荐了相关专利信息
度检测方法
钢轨
三维点云数据
深度学习语义分割
弯曲
刀具磨损监测
刀具磨损预测模型
非线性映射关系
位移误差
机床主轴电机
视觉引导系统
覆膜方法
机器人抓取
视觉检测系统
表面图像数据