摘要
本发明公开了一种基于大语言模型的语义三维场景理解方法、装置、设备及存储介质,该方法包括:采集室内场景的多角度图片,并对多角度图片进行处理,获得多角度图片对应的三维高斯椭球和图像语义文本;将图像语义文本输入至预设大语言模型进行常识性训练,并基于训练结果预测室内场景类型获得对应的高级语义;将图像语义文本和高级语义压缩后嵌入三维高斯椭球,获得目标三维高斯椭球;基于目标三维高斯椭球,通过可微分渲染端到端训练对室内场景对应的3D模型进行参数优化,形成嵌入语义信息的3D场景表示,以构建从局部物体到全局场景的深层次场景理解,相比于现有技术,本发明有效提升了机器人系统在复杂环境中的场景理解和交互能力。
技术关键词
场景理解方法
大语言模型
语义
多角度
图片
运动恢复结构
文本
多层感知器
编码
嵌套
图像分割模型
解码
预训练模型
机器人系统
相机外参
点云
视觉传感器
相机标定
系统为您推荐了相关专利信息
语义特征
在线学习机制
注意力机制
日志监控方法
数据
大语言模型
流量识别方法
异常流量
列表
计算机可读指令
解析技术
结构化数据模型
生成结构化数据
特征点
可视化图表
地理位置信息
生成多媒体
地理围栏技术
构建兴趣模型
深度卷积神经网络