摘要
本发明公开了一种基于视角信息和关系解耦的3D视觉物体定位方法,包括:获取多模态数据并进行预处理得到3D场景点云数据和文本;设计一个简单关系解耦模块,对预处理后的文本进行空间关系解耦,得到多组简化空间描述;对3D场景点云数据进行特征提取得到3D物体特征,将多组简化空间描述转化为多组空间描述特征;设计一种视角信息传递模块,将可学习的多视角标记与空间描述特征结合;设计一个跨模态解码器,处理带视角信息的空间描述特征和3D物体特征,生成用于预测的融合特征;将融合特征经过分类头进行分类预测,计算出场景中每个物体的概率,并选择最大概率的物体作为最终的定位结果。本发明可提高3D视觉物体定位的准确性和鲁棒性。
技术关键词
物体定位方法
视角
交叉注意力机制
融合特征
信息传递模块
标记
线性变换矩阵
关系
文本编码器
视觉
跨模态
模态特征
神经网络分类
优化神经网络
空间分布信息
系统为您推荐了相关专利信息
性别识别方法
注意力机制
数据
性别识别系统
Softmax函数
多模态
故障智能检测方法
检测数据输入
变压器故障检测
计算机设备
矩阵
多头注意力机制
多模态特征融合
融合特征
热点检测方法
视频异常检测方法
立方体
网络模块
多模态
原始图像数据