一种基于多模态大语言模型的目标检测系统及方法

AITNT
正文
推荐专利
一种基于多模态大语言模型的目标检测系统及方法
申请号:CN202511041720
申请日期:2025-07-28
公开号:CN120953579A
公开日期:2025-11-14
类型:发明专利
摘要
本发明公开了一种基于多模态大语言模型的目标检测系统及方法,利用 DETR 生成提议框作为对象候选,借助 MLLM 强大的语义推理能力,实现对长尾类别、组合对象等复杂目标的精准检测;构建主视觉编码器与辅助视觉编码器协同的双编码器架构,主视觉编码器延续 MLLM 全局语义理解能力,辅助视觉编码器专攻对象局部特征提取,通过多层多尺度特征拼接,在维度层面实现语义与感知信息的深度互补;创新设计对象索引与坐标预测双输出模式,形成 “检索‑生成” 双重保障体系,有效提升目标检测精度与鲁棒性。
技术关键词
大语言模型 融合特征 对象 适配器 多模态 多尺度特征 图像 文本 双输出模式 编码器架构 局部特征提取 坐标 索引 语义 模块 鲁棒性 参数 物体 矩阵 分辨率
系统为您推荐了相关专利信息
1
一种基于多模态大模型压缩的移动端AI高效部署方法及系统
模型压缩 多模态 移动端 模型剪枝 高效部署系统
2
一种基于融合视觉与服装AI的运动形态识别方法及系统
形态识别方法 融合视觉 人体运动轨迹 实时反馈系统 服装
3
一种试驾安全评估方法、装置、设备、存储介质及产品
座舱 语义 语音识别模型 非临时性计算机可读存储介质 数据获取单元
4
一种基于视觉令牌高效处理的多模态大语言模型免训练加速方法
大语言模型 多模态 前馈神经网络 冗余度 令牌
5
拍摄对象的无人机航拍方法、装置及计算机存储介质
图形用户界面 无人机航拍方法 相机 终端设备 计算机存储介质
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号