摘要
本发明提供了一种基于大语言模型的三维场景理解方法,包括:采集场景的点云数据和多视角图像信息;对点云数据进行处理,得到更加精细的点云数据;得到三维语义场景图和语义关系的特征向量;得到物体的3D几何信息特征向量和2D语义信息特征向量;将语义关系的特征向量、物体的3D几何信息特征向量和2D语义信息特征向量投影到大语言模型的嵌入空间,得到语义丰富的场景表示;使用k‑最近邻算法得到包含所有对象的子图序列;根据子图序列训练大语言模型,即可得到一个可以理解三维场景的语言模型。该三维场景理解方法,可以有效地利用语义信息,提高三维场景理解模型的理解能力和鲁棒性。
技术关键词
场景理解方法
Voronoi多边形
大语言模型
语义场景
物体
编码器
深度学习模型
对象
插值模块
关系
顶点
生成自然语言
监督学习方法
三维点云数据
去噪算法
去噪方法
序列
系统为您推荐了相关专利信息
强化学习模型
深度Q网络
交通信号控制方法
大语言模型
基座
场景呈现方法
大语言模型
焦点
资源调度优化
标注工具
购物篮分析
大语言模型
推荐系统
挖掘商品
自然语言