一种基于多模态语义图的双分支扩散三维场景生成方法

正文

推荐专利

申请号：CN202511349874

申请日期：2025-09-22

公开号：CN120833445B

公开日期：2025-12-26

类型：发明专利

摘要

本发明属于三维场景建模技术领域，公开了一种基于多模态语义图的双分支扩散三维场景生成方法，包括如下步骤：首先接收草图、文本、自动补全指令及场景常理知识等多模态数据，提取特征并融合为统一的多模态语义图；利用图神经网络和注意力机制增强语义图特征，并通过物理引擎优化物理约束；补全缺失的视觉模态和图结构关系；基于语义、空间关系和物理约束对场景进行质量评分；最后通过双分支扩散模型分别生成空间布局和几何形状，确保布局与形状的协调性。本发明的优点包括多模态信息融合、物理合理性保证、结构补全能力强、高质量评分优化及高效生成过程，适用于虚拟现实、增强现实和机器人等领域的三维场景建模需求。

技术关键词

场景生成方法分支三维场景建模技术文本编码器多层注意力机制语义检索系统物理关系建模变分自动编码器多模态信息融合指令布局对象节点

一种基于多模态语义图的双分支扩散三维场景生成方法

站点导航

APP 下载