摘要
本申请涉及一种基于跨域多模态融合编码的目标匹配方法,该方法基于多视图图像数据、激光雷达点云数据以及待检测的关键词文本数据,分别得到视觉描述符、视点描述符以及第二关键词特征向量;将视觉描述符与视点描述符融合为多视图融合3D表达特征向量;将第二关键词特征向量经过线性变换,得到第三关键词特征向量;并将多视图融合3D表达特征向量与第三关键词特征向量进行拼接,得到第一联合表达向量;将第一联合表达向量经过三层transformer编码块,输出三级联合表达向量;并在三级联合表达向量与第一关键词特征向量中找出余弦相似度最高的部分作为目标匹配结果。该方法有效实现了图像、点云、文本三种模态的深度特征融合。
技术关键词
激光雷达点云数据
关键词
描述符
数据编码
视觉
编码块
深度特征融合
图像
文本
矩阵
词向量模型
数值
切片
装备
序列
系统为您推荐了相关专利信息
视觉检测系统
轮廓数据
风险评估模型
汽车模具表面
数据处理模块
光场图像数据
图像增强方法
神经网络模型
矩阵
图像增强装置
残差神经网络
图像重建方法
生成超分辨率图像
多尺度
图像块