摘要
本公开提供了一种基于大模型的三维图像重建方法,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型、元宇宙、虚拟现实、增强现实等技术领域。具体实现方案为:基于隐式提示信息对待重建图像进行推理分割,确定待重建图像中的至少一个候选对象并为至少一个候选对象添加掩码,得到分割图像;对待重建图像进行几何重建,得到三维网格模型,三维网格模型表征至少一个候选对象的几何信息和待重建图像重建场景的几何信息;对分割图像和三维网格模型进行融合,得到至少一个候选对象的三维重建结果;以及将隐式提示信息和至少一个候选对象的三维重建结果输入第一大语言模型,输出由隐式提示信息指示的目标对象的三维重建结果。本公开还提供了一种基于大模型的训练方法、装置、电子设备和存储介质。
技术关键词
三维网格模型
大语言模型
三维图像重建方法
对象
图像重建装置
图像嵌入
距离信息
数据
融合特征
语义
图像编码
显示装置
模型训练装置
输入输出模块
模型训练方法
电子设备
系统为您推荐了相关专利信息
控制策略
扩充图像数据
控制机器人设备
元素
生成图像数据
网页聚类方法
文本
预训练语言模型
模糊聚类算法
节点