一种增强大语言模型三维空间理解的场景表征方法及装置

AITNT
正文
推荐专利
一种增强大语言模型三维空间理解的场景表征方法及装置
申请号:CN202510017129
申请日期:2025-01-06
公开号:CN119942027B
公开日期:2025-12-02
类型:发明专利
摘要
本申请提供了一种增强大语言模型三维空间理解的场景表征方法及装置,涉及数据处理技术领域。构建多个视觉参照物,学习视觉参照物对应的局部区域内点的空间信息,获得第一层级的三维空间表征。通过消息传递机制促进不同视觉参照物间的全局空间分布建模,使每个视觉参照物不仅捕捉其局部特征,还能理解与相邻参照物之间的全局空间关系,形成第二层级的三维空间表征。通过注意力机制实现视觉参照物与全局场景之间的信息交互,并增加位置精调网络细化视觉参照物的定位,得到第三层的三维空间表征。如此,采用从第一层级到第三层级的渐进式三维空间表征,捕获到增强了位置信息的空间表征,提高大语言模型在处理三维视觉语言任务的空间理解和推理能力。
技术关键词
视觉 大语言模型 多层注意力机制 表征方法 桥接器 消息传递机制 前馈神经网络 层级 场景 聚类 表征装置 采样点 数据处理技术 坐标 文本
系统为您推荐了相关专利信息
1
一种基于语义协同和表征挖掘的视频文本识别方法
语义协同 文本识别方法 分类器 文本分割方法 网络
2
一种扫描电镜的虚拟交互系统及方法
扫描电镜 子模块 力反馈手套 数据收集模块 感应模块
3
基于知识图谱生成问答的方法和装置
检索策略 文本分类模型 图谱 BERT模型 实体识别模型
4
一种人机交互方法、装置、电子设备及存储介质
人机交互方法 大语言模型 模式 机器人 机器可读指令
5
一种机器人柔性自动涂油以及贴付的装置
产品定位机构 机器人总成 自动剥离机构 涂油机构 吸盘组件
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号