基于大语言模型的语义三维场景理解方法、装置、设备及存储介质

AITNT
正文
推荐专利
基于大语言模型的语义三维场景理解方法、装置、设备及存储介质
申请号:CN202510009870
申请日期:2025-01-03
公开号:CN119941989B
公开日期:2025-10-17
类型:发明专利
摘要
本发明公开了一种基于大语言模型的语义三维场景理解方法、装置、设备及存储介质,该方法包括:采集室内场景的多角度图片,并对多角度图片进行处理,获得多角度图片对应的三维高斯椭球和图像语义文本;将图像语义文本输入至预设大语言模型进行常识性训练,并基于训练结果预测室内场景类型获得对应的高级语义;将图像语义文本和高级语义压缩后嵌入三维高斯椭球,获得目标三维高斯椭球;基于目标三维高斯椭球,通过可微分渲染端到端训练对室内场景对应的3D模型进行参数优化,形成嵌入语义信息的3D场景表示,以构建从局部物体到全局场景的深层次场景理解,相比于现有技术,本发明有效提升了机器人系统在复杂环境中的场景理解和交互能力。
技术关键词
场景理解方法 大语言模型 语义 多角度 图片 运动恢复结构 文本 多层感知器 编码 嵌套 图像分割模型 解码 预训练模型 机器人系统 相机外参 点云 视觉传感器 相机标定
系统为您推荐了相关专利信息
1
日志监控方法、装置、设备、介质和程序产品
语义特征 在线学习机制 注意力机制 日志监控方法 数据
2
一种流量识别方法、装置、计算设备及存储介质
大语言模型 流量识别方法 异常流量 列表 计算机可读指令
3
一种基于多变换和语义特征融合的对抗样本恢复方法
语义特征 恢复方法 样本 离散小波变换 图像
4
多模态图纸解析技术及系统
解析技术 结构化数据模型 生成结构化数据 特征点 可视化图表
5
一种基于地理位置信息和多媒体交互的意图引导推送方法和系统
地理位置信息 生成多媒体 地理围栏技术 构建兴趣模型 深度卷积神经网络
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号