摘要
本申请公开了一种基于多模态大模型的目标检测方法及其相关设备,涉及图像处理技术领域,本申请将第一检测问题输入至预设多模态大模型,由于第一检测问题涉及待检测图像和待检测目标,预设多模态大模型用于表征检测问题所涉及图像和所涉及的类别,以及目标在图像中的位置之间的关联关系,通过预设多模态大模型对第一检测问题进行处理,即可获得第一回答;相较于目前通过多模态大语言模型将文本描述与图像中的目标进行匹配,从而定位该物体的位置,本申请在未借助任何外部检测模块的情况下,实现了预设多模态大模型本身的目标检测能力。
技术关键词
多模态
计算机程序产品
标签
可读存储介质
图像处理技术
大语言模型
处理器
输入模块
关系
存储器
文本
物体
系统为您推荐了相关专利信息
滑坡灾害监测
区域覆盖方法
数据处理模块
控制策略
搜索算法