摘要
本公开提供了一种基于多模态的场景感知方法、装置、电子设备和存储介质。本公开实施例提供的方法中,先提取多视角图像序列的图像特征和4D雷达数据序列获的雷达特征,使用历史雷达特征和当前雷达特征在BEV空间与体素空间建模动态场景与静态场景的时空演化以得到动态场景特征和静态场景特征,再针对图像特征、动态场景特征和静态场景特征进行跨模态交互融合得到多模态融合特征,该多模态融合特征可直接用于3D目标检测、语义占用预测和/或运动状态估计。本公开能够在复杂环境下实现高精度、高效率的场景理解。
技术关键词
动态场景
雷达
场景特征
融合特征
跨模态
多模态
场景感知方法
交互特征
运动状态估计
图像
空洞
多视角特征
序列
多尺度
特征提取模块
金字塔池化
金字塔特征
轻量级卷积神经网络
时序
系统为您推荐了相关专利信息
高中压
工作特征
检修计划
孤立森林算法
智能监控方法
金字塔结构
多尺度
记忆
交叉注意力机制
更新模型参数
路网生成方法
停车场
障碍物
停车位
电子地图数据
自动评估系统
中心线
自动评估方法
图像
特征提取模块
视频摘要方法
运动特征
特征金字塔
融合特征
语义向量