基于思维链推理和跨模态融合的开放词汇三维物体可供性定位方法

正文

推荐专利

申请号：CN202510331144

申请日期：2025-03-20

公开号：CN120219718A

公开日期：2025-06-27

类型：发明专利

摘要

本发明公开了一种基于思维链推理和跨模态融合的开放词汇三维物体可供性定位方法，包括：1、获取输入点云‑图像对进行编码；2、基于微调多模态大语言模型的可供性模型构建；3、基于可供性模型的多头可供性思维链推理策略；4、将推理获取的可供性知识进行编码融合；5、基于跨模态自适应融合模块对几何属性和点云特征进行融合；6、解码具有交互意图的图像特征和具有几何属性的点云特征实现对三维物体的可供性精准定位；7、构建可供性定位网络的总损失函数，并对网络进行训练。本发明综合考虑思维链的层级化推理范式与自适应融合的跨模态语义整合能力，从而实现对三维物体可供性的精准定位。

技术关键词

定位方法大语言模型图像意图 sigmoid函数跨模态多模态适配器交互物体输入解码器文本编码器可读存储介质处理器存储器网络

系统为您推荐了相关专利信息

一种眼在手外的相机外参自适应标定方法及系统

机械臂基座标定方法坐标系相机矩阵

基于防爆巡检机器人的燃气分输站遗留物品检测方法

防爆巡检机器人遗留物品检测燃气地图界面巡检数据

芯玻璃酸蚀速率的检测方法及装置

图像速率板坯散斑像素点

基于BIM的机电设备智能化到货验收方法及装置

验收设备设备标识码机电设备智能化成套机电设备验收方法

一种基于倾斜角谱的反射成像装置及方法

反射成像装置样本夹持装置图像采集装置成像方法探针

基于思维链推理和跨模态融合的开放词汇三维物体可供性定位方法

站点导航

APP 下载