摘要
本发明公开了一种面向ATS基于语义驱动单幅图像下3D多目标检测方法,对输入的RGB图像进行处理,提取图像中各个对象的3D边界框;生成3D对象在场景中的所有潜在2D投影;提取出描述中的关键字、短语及其语义信息,形成表示语言描述的特征信息Pt;融合对象的2D图像信息和3D几何信息以获得完整的对象表示fa;将语言描述提取到的语言特征与检测到的3D对象相关联,捕获文本和视觉模态之间的语义对应关系;根据产生的匹配分数对目标进行过滤,得到所有符合自然语言描述的目标。本发明提高了检索识别的准确性和效率,实现了更高的识别精度,显著降低了计算复杂度,能够提升跨模态检索的精度和速度,大幅提高交通事件的准确识别与定位能力。
技术关键词
对象
语义
图像
视觉特征
自然语言
文本
注意力机制
预训练网络
跨模态
关键字
并行工作
关系
补丁
物体
场景
复杂度
模块
双头
系统为您推荐了相关专利信息
土地价值评估方法
计算机程序产品
图像
电子设备
校正
高精度扫描方法
Delaunay三角剖分
高斯混合模型
强化学习算法
DBSCAN聚类算法
传感器阵列
图像捕获系统
图像传感器设备
镜头
格式