摘要
本发明提出一种基于包容性交互碰撞的组合式3D生成方法。该方法能够根据文本描述生成语义对齐和多视角一致的组合式3D场景。具体来说,整个生成过程分为由粗到细的两个阶段。第一阶段,通过大语言模型的视觉概念理解和布局安排能力,根据输入的文本内容生成3D布局信息,并利用现有的模型先验进行粗粒度的3D生成。第二阶段,利用多视角自适应的分数蒸馏采样技术从预训练的扩散模型中蒸馏多视角和纹理先验知识用于外观和跨视角一致性优化。另外,设计包容性交互碰撞损失保证大部分的高斯球处于包围盒内部的同时,使得在包围盒交互区域的少量高斯球表达交互信息,进而实现精准地交互区域生成。大量的实验数据和定性结果表明,本发明在文本生成3D任务上表现出色,同时基于优化的方式显著降低运算复杂度,无需用户给定具体布局信息,便于用户使用。
技术关键词
大语言模型
生成方法
组合式
布局
物体
基元
多视角
噪声预测器
文本编码器
蒸馏
图像生成模型
解码器模型
生成框架
超参数
分词算法
噪声特征
系统为您推荐了相关专利信息
隐私保护方法
子模块
大语言模型
隐私保护模块
数据
消防大数据
大数据处理方法
资源分配
节点
计算中心