摘要
本发明公开一种基于跨模态重建自监督训练的6D位姿估计方法,获取场景图和深度图裁剪得到包含目标物体的目标图和深度图,目标图处理成掩码图后提取图像特征和点云特征,利用跨模态交叉注意力机制训练得到图像点云融合特征,再重建图像并输出位姿估计特征对实现自监督,加载训练后模型权重结合位姿估计特征对通过位姿解码器输出6D估计位姿。本发明方法有效地融合来自不同传感器模态的信息,同时利用精选通道融合策略去除了冗余信息,得到更加精确的6D位姿,对于后续的进一步控制识别提供了精准位置信息。能够从不同角度和维度理解物体的特征,面对遮挡和光照不足等情况时多种传感器信息结合使用,相较单一模态输入具有更好的鲁棒性。
技术关键词
跨模态
估计方法
交叉注意力机制
点云特征
深度图
融合特征
热力图
数据生成图像
模态特征
优化神经网络
图像解码器
计算机存储介质
融合策略
处理器通信
物体
系统为您推荐了相关专利信息
同步带直线模组
推杆升降机构
果实收集机构
并联机构
连续体
分类特征
智能分诊方法
交叉注意力机制
医学影像数据
病历
焊点检测方法
节点特征
交叉注意力机制
知识蒸馏技术
融合特征
图像生成方法
深度图
场景深度估计
锐化滤波
亮度