摘要
本发明属于三维场景建模技术领域,公开了一种基于多模态语义图的双分支扩散三维场景生成方法,包括如下步骤:首先接收草图、文本、自动补全指令及场景常理知识等多模态数据,提取特征并融合为统一的多模态语义图;利用图神经网络和注意力机制增强语义图特征,并通过物理引擎优化物理约束;补全缺失的视觉模态和图结构关系;基于语义、空间关系和物理约束对场景进行质量评分;最后通过双分支扩散模型分别生成空间布局和几何形状,确保布局与形状的协调性。本发明的优点包括多模态信息融合、物理合理性保证、结构补全能力强、高质量评分优化及高效生成过程,适用于虚拟现实、增强现实和机器人等领域的三维场景建模需求。
技术关键词
场景生成方法
分支
三维场景建模技术
文本编码器
多层注意力机制
语义检索系统
物理
关系建模
变分自动编码器
多模态信息融合
指令
布局
对象
节点