基于对比学习和视角对齐的三维视觉定位方法

AITNT
正文
推荐专利
基于对比学习和视角对齐的三维视觉定位方法
申请号:CN202411520772
申请日期:2024-10-29
公开号:CN119600099B
公开日期:2025-12-19
类型:发明专利
摘要
本发明公开了一种基于对比学习和视角对齐的三维视觉定位方法,包括:学习输入文本的特征,原始三维场景中物体的基于属性引导的点云特征,角度变换后三维场景中的物体的基于属性引导的点云特征;利用自对比损失和跨模态对比损失训练视角内对比网络对齐文本特征和物体原始点云特征对,对齐文本特征和特定视角下的物体点云特征对,获得原始场景和随机视角下场景中物体的多模态特征;利用跨视角对比损失训练跨视角对比网络,对齐不同视角下的物体多模态特征;利用定位一致性损失和定位损失训练视觉定位网络,对齐不同视角下物体定位置信度。在推理时,对于查询文本和原始点云,从预测的视觉定位结果中选择置信度最高的物体作为最终定位结果。本发明通过专注特定视角内和跨视角的物体点云特征的对齐来提升对涉及对视角相关的文本描述的理解,并提升对三维视觉定位的准确性和对视角变化的鲁棒性。
技术关键词
三维视觉定位方法 点云特征 视角 多模态特征 文本 空间关系特征 尺寸特征 物体检测器 更新网络参数 场景 梯度下降法 多层感知机 样本 跨模态 定位头
系统为您推荐了相关专利信息
1
一种基于三化赋能的人才培训方法及系统
人才培训系统 文本 子系统 手册 人员培训系统
2
一种基于文本指令引导的可控图像生成方法及系统
图像生成方法 编辑 注意力 文本 大语言模型
3
PDF文档中图像与内容关联的智能检索方法及系统
智能检索方法 索引机制 图像处理 图文 对象
4
一种基于合成数据的LLM报告解读方法及系统
问答对数据 大语言模型 解读方法 文本 报告
5
用户协助方法、装置、设备以及存储介质
文本 手语 意图识别模型 标记 画面
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号