基于对比学习和视角对齐的三维视觉定位方法

正文

推荐专利

申请号：CN202411520772

申请日期：2024-10-29

公开号：CN119600099B

公开日期：2025-12-19

类型：发明专利

摘要

本发明公开了一种基于对比学习和视角对齐的三维视觉定位方法，包括：学习输入文本的特征，原始三维场景中物体的基于属性引导的点云特征，角度变换后三维场景中的物体的基于属性引导的点云特征；利用自对比损失和跨模态对比损失训练视角内对比网络对齐文本特征和物体原始点云特征对，对齐文本特征和特定视角下的物体点云特征对，获得原始场景和随机视角下场景中物体的多模态特征；利用跨视角对比损失训练跨视角对比网络，对齐不同视角下的物体多模态特征；利用定位一致性损失和定位损失训练视觉定位网络，对齐不同视角下物体定位置信度。在推理时，对于查询文本和原始点云，从预测的视觉定位结果中选择置信度最高的物体作为最终定位结果。本发明通过专注特定视角内和跨视角的物体点云特征的对齐来提升对涉及对视角相关的文本描述的理解，并提升对三维视觉定位的准确性和对视角变化的鲁棒性。

技术关键词

三维视觉定位方法点云特征视角多模态特征文本空间关系特征尺寸特征物体检测器更新网络参数场景梯度下降法多层感知机样本跨模态定位头

系统为您推荐了相关专利信息

一种基于三化赋能的人才培训方法及系统

人才培训系统文本子系统手册人员培训系统

一种基于文本指令引导的可控图像生成方法及系统

图像生成方法编辑注意力文本大语言模型

PDF文档中图像与内容关联的智能检索方法及系统

智能检索方法索引机制图像处理图文对象

一种基于合成数据的LLM报告解读方法及系统

问答对数据大语言模型解读方法文本报告

用户协助方法、装置、设备以及存储介质

文本手语意图识别模型标记画面

基于对比学习和视角对齐的三维视觉定位方法

站点导航

APP 下载