摘要
本申请公开了一种基于大语言模型的三维点云场景理解方法及相关产品,该方法包括:获取待理解的三维场景;采集待理解的三维场景的多幅二维多视角图像;基于多幅二维多视角图像得到视图场景特征;利用视图场景特征和待理解的三维场景对应的三维点云数据对三维可学习查询向量进行交互学习,得到三维感知场景嵌入表征;利用大语言模型理解三维感知场景嵌入表征,并生成待理解的三维场景对应的理解结果。本申请利用视图场景特征提升了大语言模型的理解准确性。利用视图场景特征和三维点云数据对三维可学习查询向量进行交互学习,使三维感知场景嵌入表征融合了来自不同模态的信息,使大语言模型可以更准确的理解三维场景中的复杂信息。
技术关键词
场景理解方法
场景特征
多视角
大语言模型
视觉特征
三维点云数据
图像
相机
特征提取单元
处理器
计算机程序产品
注意力
计算机设备
模块
可读存储介质
文本
存储器
指令
系统为您推荐了相关专利信息
渗漏油
在线监测系统
多模态
电气设备状态
可见光图像
自然语言交互方法
制造执行系统
大语言模型
数据库表结构
计算机可读取存储介质