一种基于多模态大语言模型的目标检测系统及方法

正文

推荐专利

申请号：CN202511041720

申请日期：2025-07-28

公开号：CN120953579A

公开日期：2025-11-14

类型：发明专利

摘要

本发明公开了一种基于多模态大语言模型的目标检测系统及方法，利用 DETR 生成提议框作为对象候选，借助 MLLM 强大的语义推理能力，实现对长尾类别、组合对象等复杂目标的精准检测；构建主视觉编码器与辅助视觉编码器协同的双编码器架构，主视觉编码器延续 MLLM 全局语义理解能力，辅助视觉编码器专攻对象局部特征提取，通过多层多尺度特征拼接，在维度层面实现语义与感知信息的深度互补；创新设计对象索引与坐标预测双输出模式，形成 “检索‑生成” 双重保障体系，有效提升目标检测精度与鲁棒性。

技术关键词

大语言模型融合特征对象适配器多模态多尺度特征图像文本双输出模式编码器架构局部特征提取坐标索引语义模块鲁棒性参数物体矩阵分辨率

系统为您推荐了相关专利信息

一种基于多模态大模型压缩的移动端AI高效部署方法及系统

模型压缩多模态移动端模型剪枝高效部署系统

一种基于融合视觉与服装AI的运动形态识别方法及系统

形态识别方法融合视觉人体运动轨迹实时反馈系统服装

一种试驾安全评估方法、装置、设备、存储介质及产品

座舱语义语音识别模型非临时性计算机可读存储介质数据获取单元

一种基于视觉令牌高效处理的多模态大语言模型免训练加速方法

大语言模型多模态前馈神经网络冗余度令牌

拍摄对象的无人机航拍方法、装置及计算机存储介质

图形用户界面无人机航拍方法相机终端设备计算机存储介质

一种基于多模态大语言模型的目标检测系统及方法

站点导航

APP 下载