摘要
本发明提供的基于多模态语言模型的结构化目标检测方法、装置及设备,涉及目标检测技术领域。本发明将获取的图像数据与提示词输入多模态语言模型;多模态语言模型包括视觉编码器、交叉注意力模块与解码器;通过视觉编码器对图像数据进行特征提取;基于提示词与特征提取后的数据在交叉注意力模块进行多模态交互;其中,交叉注意力模块插入有Adapter模块,以实现图像与语言信息的融合;对交叉注意力模块的查询向量和值向量的权重进行低秩微调更新,其余模型权重保持冻结;通过解码器推理输出若干个至少包含目标类型及其边界框坐标的目标token组序列。本发明无需额外的目标检测模块,通过改进的多模态语言模型,可一次性生成多个目标的完整结构信息。
技术关键词
注意力
多模态交互
解码器
联合损失函数
模块
坐标
图像
数据
序列
残差结构
矩阵
结构组
非线性
度函数
语义
检测设备
存储器
系统为您推荐了相关专利信息
碰撞预警方法
智能网联汽车
行车风险场
蒙特卡洛
车辆状态信息
数据映射表
虚拟局域网标签
网络通信方法
电力通信系统
电力系统
新能源并网方法
新能源发电系统
实时监测系统
智能控制算法
并网逆变器
食品安全检测装置
检测食品
食品安全检测系统
荧光检测模块
比色皿支架