摘要
本申请提供了一种结构控制信息引导的3D场景生成方法、装置、设备及介质,属于图像处理技术领域,基于场景生成需求构建目标建筑结构的3D建筑模型;基于3D建筑模型生成多视角的线框结构图和深度图;以多视角的线框结构图、深度图作为结构控制信息,结合目标3D场景文本提示词引导预训练的图像生成模型生成多张不同视角下的目标风格图像;将生成的多张不同视角下的目标风格图像作为纹理信息,映射到3D建筑模型上,得到目标3D场景模型。本发明根据结构化可控生成的3D场景模型来保证场景风格的一致性。同时,通过目标3D场景文本提示词引导生成,解决现有数字资产库技术中资产复用导致的场景同质化问题。
技术关键词
图像生成模型
建筑模型
噪声预测
深度图
场景生成方法
线框
多视角
风格
融合去噪
文本编码器
网络
场景生成装置
通信接口
可读存储介质
图像处理技术