基于多模态语言模型的结构化目标检测方法、装置及设备

AITNT
正文
推荐专利
基于多模态语言模型的结构化目标检测方法、装置及设备
申请号:CN202511072265
申请日期:2025-08-01
公开号:CN120580514B
公开日期:2025-10-24
类型:发明专利
摘要
本发明提供的基于多模态语言模型的结构化目标检测方法、装置及设备,涉及目标检测技术领域。本发明将获取的图像数据与提示词输入多模态语言模型;多模态语言模型包括视觉编码器、交叉注意力模块与解码器;通过视觉编码器对图像数据进行特征提取;基于提示词与特征提取后的数据在交叉注意力模块进行多模态交互;其中,交叉注意力模块插入有Adapter模块,以实现图像与语言信息的融合;对交叉注意力模块的查询向量和值向量的权重进行低秩微调更新,其余模型权重保持冻结;通过解码器推理输出若干个至少包含目标类型及其边界框坐标的目标token组序列。本发明无需额外的目标检测模块,通过改进的多模态语言模型,可一次性生成多个目标的完整结构信息。
技术关键词
注意力 多模态交互 解码器 联合损失函数 模块 坐标 图像 数据 序列 残差结构 矩阵 结构组 非线性 度函数 语义 检测设备 存储器
系统为您推荐了相关专利信息
1
一种网联协同驾驶汽车弯道碰撞预警方法及系统
碰撞预警方法 智能网联汽车 行车风险场 蒙特卡洛 车辆状态信息
2
一种急诊患者智能预检分诊系统
预检分诊系统 项目 语义 监督学习方法 登记阶段
3
电力系统的网络通信方法、装置、计算机设备、可读存储介质和程序产品
数据映射表 虚拟局域网标签 网络通信方法 电力通信系统 电力系统
4
一种应用于新能源发电系统的新能源并网方法
新能源并网方法 新能源发电系统 实时监测系统 智能控制算法 并网逆变器
5
一种食品安全检测装置、系统及方法
食品安全检测装置 检测食品 食品安全检测系统 荧光检测模块 比色皿支架
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号