一种基于大语言模型的三维点云场景理解方法及相关产品

正文

推荐专利

申请号：CN202510523094

申请日期：2025-04-24

公开号：CN120375155A

公开日期：2025-07-25

类型：发明专利

摘要

本申请公开了一种基于大语言模型的三维点云场景理解方法及相关产品，该方法包括：获取待理解的三维场景；采集待理解的三维场景的多幅二维多视角图像；基于多幅二维多视角图像得到视图场景特征；利用视图场景特征和待理解的三维场景对应的三维点云数据对三维可学习查询向量进行交互学习，得到三维感知场景嵌入表征；利用大语言模型理解三维感知场景嵌入表征，并生成待理解的三维场景对应的理解结果。本申请利用视图场景特征提升了大语言模型的理解准确性。利用视图场景特征和三维点云数据对三维可学习查询向量进行交互学习，使三维感知场景嵌入表征融合了来自不同模态的信息，使大语言模型可以更准确的理解三维场景中的复杂信息。

技术关键词

场景理解方法场景特征多视角大语言模型视觉特征三维点云数据图像相机特征提取单元处理器计算机程序产品注意力计算机设备模块可读存储介质文本存储器指令

系统为您推荐了相关专利信息

控制智能设备拍照的方法和装置

意图识别模型拍摄单元手势智能设备图像

电气设备渗漏油在线监测系统及方法

渗漏油在线监测系统多模态电气设备状态可见光图像

人机对话方法、设备、存储介质及程序产品

知识点人机对话方法专业答案大语言模型

基于大语言模型的制造执行系统自然语言交互方法及系统

自然语言交互方法制造执行系统大语言模型数据库表结构计算机可读取存储介质

基于大模型的汽车说明书解析、语音播报及指令控制方法

指令控制方法自然语言车机表格文本

一种基于大语言模型的三维点云场景理解方法及相关产品

站点导航

APP 下载