基于大语言模型的语义三维场景理解方法、装置、设备及存储介质

正文

推荐专利

申请号：CN202510009870

申请日期：2025-01-03

公开号：CN119941989B

公开日期：2025-10-17

类型：发明专利

摘要

本发明公开了一种基于大语言模型的语义三维场景理解方法、装置、设备及存储介质，该方法包括：采集室内场景的多角度图片，并对多角度图片进行处理，获得多角度图片对应的三维高斯椭球和图像语义文本；将图像语义文本输入至预设大语言模型进行常识性训练，并基于训练结果预测室内场景类型获得对应的高级语义；将图像语义文本和高级语义压缩后嵌入三维高斯椭球，获得目标三维高斯椭球；基于目标三维高斯椭球，通过可微分渲染端到端训练对室内场景对应的3D模型进行参数优化，形成嵌入语义信息的3D场景表示，以构建从局部物体到全局场景的深层次场景理解，相比于现有技术，本发明有效提升了机器人系统在复杂环境中的场景理解和交互能力。

技术关键词

场景理解方法大语言模型语义多角度图片运动恢复结构文本多层感知器编码嵌套图像分割模型解码预训练模型机器人系统相机外参点云视觉传感器相机标定

系统为您推荐了相关专利信息

日志监控方法、装置、设备、介质和程序产品

语义特征在线学习机制注意力机制日志监控方法数据

一种流量识别方法、装置、计算设备及存储介质

大语言模型流量识别方法异常流量列表计算机可读指令

一种基于多变换和语义特征融合的对抗样本恢复方法

语义特征恢复方法样本离散小波变换图像

多模态图纸解析技术及系统

解析技术结构化数据模型生成结构化数据特征点可视化图表

一种基于地理位置信息和多媒体交互的意图引导推送方法和系统

地理位置信息生成多媒体地理围栏技术构建兴趣模型深度卷积神经网络

基于大语言模型的语义三维场景理解方法、装置、设备及存储介质

站点导航

APP 下载