摘要
本发明涉及图像处理领域,具体涉及一种多模态引导的渐进式图像生成方法,包括:为接收数据生成多模态的特征;通过噪声采样和多模态特征融合方法,利用布局去噪网络为每个主体对象生成层最终布局;通过反演算法提取参考图像的潜在编码,结合层文本编码经稳定扩散模型迭代去噪,提取参考键值矩阵;将初始噪声、层最终布局、多模态的特征及参考键值矩阵输入分层扩散模型,经多步去噪后通过解码生成主体透明图层;将所有主体透明图层叠加形成混合图像后,基于全局文本编码驱动图像恢复网络生成目标图像。本发明解决了现有方法在处理复杂场景时的缺陷;确保了生成的图像在全局和局部都能与文本描述保持一致。
技术关键词
图像生成方法
约束特征
注意力
多模态
对象
文本
布局
视觉
噪声图像
编码
掩码矩阵
模态特征
融合方法
代表
多层感知机层
分层
反演算法
系统为您推荐了相关专利信息
地形高程数据
数据降尺度
数据处理方法
地形特征提取
融合特征
视频信号分析
多模态深度学习
多模态生理
非接触式
视频流
聚氨酯防腐涂料
滑动时间窗口
聚氨酯预聚体
空间特征提取
波动特征