摘要
本发明公开了一种基于思维链推理和跨模态融合的开放词汇三维物体可供性定位方法,包括:1、获取输入点云‑图像对进行编码;2、基于微调多模态大语言模型的可供性模型构建;3、基于可供性模型的多头可供性思维链推理策略;4、将推理获取的可供性知识进行编码融合;5、基于跨模态自适应融合模块对几何属性和点云特征进行融合;6、解码具有交互意图的图像特征和具有几何属性的点云特征实现对三维物体的可供性精准定位;7、构建可供性定位网络的总损失函数,并对网络进行训练。本发明综合考虑思维链的层级化推理范式与自适应融合的跨模态语义整合能力,从而实现对三维物体可供性的精准定位。
技术关键词
定位方法
大语言模型
图像
意图
sigmoid函数
跨模态
多模态
适配器
交互物体
输入解码器
文本编码器
可读存储介质
处理器
存储器
网络
系统为您推荐了相关专利信息
防爆巡检机器人
遗留物品检测
燃气
地图界面
巡检数据
验收设备
设备标识码
机电设备智能化
成套机电设备
验收方法
反射成像装置
样本夹持装置
图像采集装置
成像方法
探针