摘要
本发明属于计算机视觉与城市设计交叉领域,提出多模态协同驱动的DiT城市布局生成方法,以解决现有生成模型在空间合理性与规划可控性方面的不足。该方法创新性构建基于transformer的扩散生成模型,在DiT模型中集成两个额外控制信号实现受控生成。在模型架构设计上,构建多模态条件融合的DiT框架,集成路网草图(图像控制)与规划语义(文本控制)双重引导机制。文本模态上,设计基于预训练语言模型的动态语义融合模块,将文本信息深度嵌入生成过程。图像控制方面,提出混合注意力调控机制,结合交叉注意力与AdaLN技术实现路网结构特征多尺度融合,解决空间布局失真问题。实验表明,该方法能有效综合文本和图像信息,生成的城市布局图像优于现有方法。
技术关键词
城市布局
生成方法
多模态协同
空间金字塔
信息融合机制
图像
预训练语言模型
多尺度特征提取
随机噪声
语义特征提取
文本特征向量
训练样本数据
多层次特征
系统为您推荐了相关专利信息
新能源场站
模式识别方法
时间序列特征
动态稳定控制
波动特征
嵌入特征
颜色
图像生成方法
计算机执行指令
文本