摘要
本申请公开了基于大模型的三维场景图像生成方法、装置及电子设备,涉及计算机技术领域,尤其涉及大模型、深度学习、计算机视觉等领域。具体实现方案为:获取目标场景中的至少一个对象的文本描述信息及对象的二维位置信息;根据文本描述信息和二维位置信息,生成参考图像;对参考图像进行实例分割,获取对象的实例图像;基于实例图像对对象进行三维重建,以获取对象的第一三维图像;根据第一三维图像,生成目标场景的三维场景图像。
技术关键词
二维位置信息
三维位置信息
对象
场景
文本
深度图
图像生成方法
实例分割
参数
纹理
点云
模块
尺寸
布局
图像生成装置
噪声
视角
电子设备
处理器