摘要
本申请提供了一种增强大语言模型三维空间理解的场景表征方法及装置,涉及数据处理技术领域。构建多个视觉参照物,学习视觉参照物对应的局部区域内点的空间信息,获得第一层级的三维空间表征。通过消息传递机制促进不同视觉参照物间的全局空间分布建模,使每个视觉参照物不仅捕捉其局部特征,还能理解与相邻参照物之间的全局空间关系,形成第二层级的三维空间表征。通过注意力机制实现视觉参照物与全局场景之间的信息交互,并增加位置精调网络细化视觉参照物的定位,得到第三层的三维空间表征。如此,采用从第一层级到第三层级的渐进式三维空间表征,捕获到增强了位置信息的空间表征,提高大语言模型在处理三维视觉语言任务的空间理解和推理能力。
技术关键词
视觉
大语言模型
多层注意力机制
表征方法
桥接器
消息传递机制
前馈神经网络
层级
场景
聚类
表征装置
采样点
数据处理技术
坐标
文本
系统为您推荐了相关专利信息
语义协同
文本识别方法
分类器
文本分割方法
网络
扫描电镜
子模块
力反馈手套
数据收集模块
感应模块
检索策略
文本分类模型
图谱
BERT模型
实体识别模型
人机交互方法
大语言模型
模式
机器人
机器可读指令
产品定位机构
机器人总成
自动剥离机构
涂油机构
吸盘组件