一种多模态协同驱动的DiT城市布局生成方法

正文

推荐专利

申请号：CN202510579359

申请日期：2025-05-07

公开号：CN120107491B

公开日期：2025-08-22

类型：发明专利

摘要

本发明属于计算机视觉与城市设计交叉领域，提出多模态协同驱动的DiT城市布局生成方法，以解决现有生成模型在空间合理性与规划可控性方面的不足。该方法创新性构建基于transformer的扩散生成模型，在DiT模型中集成两个额外控制信号实现受控生成。在模型架构设计上，构建多模态条件融合的DiT框架，集成路网草图（图像控制）与规划语义（文本控制）双重引导机制。文本模态上，设计基于预训练语言模型的动态语义融合模块，将文本信息深度嵌入生成过程。图像控制方面，提出混合注意力调控机制，结合交叉注意力与AdaLN技术实现路网结构特征多尺度融合，解决空间布局失真问题。实验表明，该方法能有效综合文本和图像信息，生成的城市布局图像优于现有方法。

技术关键词

城市布局生成方法多模态协同空间金字塔信息融合机制图像预训练语言模型多尺度特征提取随机噪声语义特征提取文本特征向量训练样本数据多层次特征

系统为您推荐了相关专利信息

单个高波动新能源场站的不确定性分析与模式识别方法及系统

新能源场站模式识别方法时间序列特征动态稳定控制波动特征

模型训练采样方法、海报生成方法、装置、设备及介质

采样方法样本海报生成方法海报设计布局

一种基于类依赖图的应用程序内第三方库检测方法及系统

节点特征关系序列邻居语义

图像生成方法、装置、电子设备、存储介质及程序产品

嵌入特征颜色图像生成方法计算机执行指令文本

一种代码生成方法、装置、电子设备及存储介质

矩阵乘法运算数据代码生成方法指令电子设备

一种多模态协同驱动的DiT城市布局生成方法

站点导航

APP 下载