摘要
本发明提供了一种基于城市多模态大模型的小目标物体检测方法及系统,涉及智慧城市相关技术领域,包括以下步骤:S1、获得带有小目标物体检测框的原始图片以及指令文本;S2、对带有小目标物体检测框的原始图片进行压缩得到简略图;S3、对带有小目标物体检测框的原始图片上进行裁剪或压缩得到局部环境图;S4、在带有小目标物体检测框的原始图片上以小目标物体检测框的左上角为起点进行遍历切割得到若干个局部内部图;S5、将简略图、局部环境图和若干个局部内部图输入至城市多模态大模型中,得到带有图间隔标记的视觉嵌入特征;S6、根据带有图间隔标记的视觉嵌入特征和指令文本嵌入特征得到预测文本。
技术关键词
嵌入特征
多模态
物体检测方法
文本
指令
视觉
物体检测系统
物体检测框
标记
街景图片
模块
分块
像素
系统为您推荐了相关专利信息
融合多信息源
播放管理系统
屏幕控制模块
旅客画像
播放管理方法
多模态脑机接口
解码指令
特征提取模块
语义
模态特征
设计生成方法
卷积神经网络模型
多模态
资源
元素