摘要
本发明公开一种基于多模态图像的拥挤检测方法及装置,涉及目标检测技术领域,本方法通过采集真实地铁场景内摄像头录制的视频,获得初始视频数据,并通过处理构建图像库;通过对设定拥挤程度的图像进行文本描述,并输入文本库,完成文本信息初始化;通过设定卷积神经网络对所述图像库中的图像进行特征提取,获得图像特征向量;通过设定文本编码器对所述文本库中的所述文本信息进行特征提取,获得文本特征向量;通过CLIP多模态模型生成多模态特征表示;设置基础判断参数;基于所述基础判断参数,通过多模态拥挤检测模型对所述多模态特征表示进行检测处理,输出检测结果。本发明能够分区域,快速、准确的对拥挤度识别和检测。
技术关键词
图像特征向量
多模态特征
文本编码器
文本特征向量
地铁场景
图像库
样本
图像嵌入
视频
参数
表达式
基础
模块
数据
切片
关系
标签
系统为您推荐了相关专利信息
远程驾驶控制方法
图像特征向量
云端服务器
关键帧
视觉
风力发电机组
长短期记忆网络
业务操作方法
多信息
注意力
数据可视化方法
主题关键词
可视化图表
可视化工具
数据可视化系统
样本
语音识别模型
事件特征
音频特征
多模态特征