摘要
本发明公开了一种基于图像‑文本融合增强的多模态泊车检测系统,多视角摄像头输入图像信息,摄像头特征提取模块提取多视角摄像头图像特征,图像特征空间转换模块,将多视角摄像头图像融合至bev视角,实现多视角图像特征到bev特征的转换;输入文本模态信息,文本特征提取模块提取用户意图文本特征;多模态特征融合模块,获得文本特征和bev特征后,多模态特征通过多通路的特征融合模块进行充分交融;多模态decoder模块,基于transformer的解码结构,输出带有用户特定意图的泊车车位输出。本发明引入文本信息表征用户特定的泊车意图,通过文本信息和图像信息的交互融合,为用户搜索到带有特定用户意图的最佳推荐车位。
技术关键词
文本
特征提取模块
多模态特征融合
多视角
图像
解码结构
意图
泊车场景
多通路
混合模块
多尺度
特征值
分辨率
参数
系统为您推荐了相关专利信息
停车场车位状态
图像识别模型
车位状态检测
停车场管理方法
停车场管理系统
轮胎断面结构
轮胎有限元模型
二维有限元模型
印痕
轮胎结构设计
涵洞
图像检测模型
图像处理技术
处理器
可读存储介质
跨模态
环境监测数据
设备运行数据
时空融合特征
多模态特征融合