一种增强大语言模型三维空间理解的场景表征方法及装置

正文

推荐专利

申请号：CN202510017129

申请日期：2025-01-06

公开号：CN119942027B

公开日期：2025-12-02

类型：发明专利

摘要

本申请提供了一种增强大语言模型三维空间理解的场景表征方法及装置，涉及数据处理技术领域。构建多个视觉参照物，学习视觉参照物对应的局部区域内点的空间信息，获得第一层级的三维空间表征。通过消息传递机制促进不同视觉参照物间的全局空间分布建模，使每个视觉参照物不仅捕捉其局部特征，还能理解与相邻参照物之间的全局空间关系，形成第二层级的三维空间表征。通过注意力机制实现视觉参照物与全局场景之间的信息交互，并增加位置精调网络细化视觉参照物的定位，得到第三层的三维空间表征。如此，采用从第一层级到第三层级的渐进式三维空间表征，捕获到增强了位置信息的空间表征，提高大语言模型在处理三维视觉语言任务的空间理解和推理能力。

技术关键词

视觉大语言模型多层注意力机制表征方法桥接器消息传递机制前馈神经网络层级场景聚类表征装置采样点数据处理技术坐标文本

系统为您推荐了相关专利信息

一种基于语义协同和表征挖掘的视频文本识别方法

语义协同文本识别方法分类器文本分割方法网络

一种扫描电镜的虚拟交互系统及方法

扫描电镜子模块力反馈手套数据收集模块感应模块

基于知识图谱生成问答的方法和装置

检索策略文本分类模型图谱 BERT模型实体识别模型

一种人机交互方法、装置、电子设备及存储介质

人机交互方法大语言模型模式机器人机器可读指令

一种机器人柔性自动涂油以及贴付的装置

产品定位机构机器人总成自动剥离机构涂油机构吸盘组件

一种增强大语言模型三维空间理解的场景表征方法及装置

站点导航

APP 下载