摘要
本发明公开了一种基于多模态大语言模型的目标检测系统及方法,利用 DETR 生成提议框作为对象候选,借助 MLLM 强大的语义推理能力,实现对长尾类别、组合对象等复杂目标的精准检测;构建主视觉编码器与辅助视觉编码器协同的双编码器架构,主视觉编码器延续 MLLM 全局语义理解能力,辅助视觉编码器专攻对象局部特征提取,通过多层多尺度特征拼接,在维度层面实现语义与感知信息的深度互补;创新设计对象索引与坐标预测双输出模式,形成 “检索‑生成” 双重保障体系,有效提升目标检测精度与鲁棒性。
技术关键词
大语言模型
融合特征
对象
适配器
多模态
多尺度特征
图像
文本
双输出模式
编码器架构
局部特征提取
坐标
索引
语义
模块
鲁棒性
参数
物体
矩阵
分辨率
系统为您推荐了相关专利信息
形态识别方法
融合视觉
人体运动轨迹
实时反馈系统
服装
座舱
语义
语音识别模型
非临时性计算机可读存储介质
数据获取单元
图形用户界面
无人机航拍方法
相机
终端设备
计算机存储介质