基于多模态语言模型的结构化目标检测方法、装置及设备

正文

推荐专利

申请号：CN202511072265

申请日期：2025-08-01

公开号：CN120580514B

公开日期：2025-10-24

类型：发明专利

摘要

本发明提供的基于多模态语言模型的结构化目标检测方法、装置及设备，涉及目标检测技术领域。本发明将获取的图像数据与提示词输入多模态语言模型；多模态语言模型包括视觉编码器、交叉注意力模块与解码器；通过视觉编码器对图像数据进行特征提取；基于提示词与特征提取后的数据在交叉注意力模块进行多模态交互；其中，交叉注意力模块插入有Adapter模块，以实现图像与语言信息的融合；对交叉注意力模块的查询向量和值向量的权重进行低秩微调更新，其余模型权重保持冻结；通过解码器推理输出若干个至少包含目标类型及其边界框坐标的目标token组序列。本发明无需额外的目标检测模块，通过改进的多模态语言模型，可一次性生成多个目标的完整结构信息。

技术关键词

注意力多模态交互解码器联合损失函数模块坐标图像数据序列残差结构矩阵结构组非线性度函数语义检测设备存储器

系统为您推荐了相关专利信息

一种网联协同驾驶汽车弯道碰撞预警方法及系统

碰撞预警方法智能网联汽车行车风险场蒙特卡洛车辆状态信息

一种急诊患者智能预检分诊系统

预检分诊系统项目语义监督学习方法登记阶段

电力系统的网络通信方法、装置、计算机设备、可读存储介质和程序产品

数据映射表虚拟局域网标签网络通信方法电力通信系统电力系统

一种应用于新能源发电系统的新能源并网方法

新能源并网方法新能源发电系统实时监测系统智能控制算法并网逆变器

一种食品安全检测装置、系统及方法

食品安全检测装置检测食品食品安全检测系统荧光检测模块比色皿支架

基于多模态语言模型的结构化目标检测方法、装置及设备

站点导航

APP 下载