摘要
本发明公开了一种基于去噪扩散模型的多尺度多模态图像条件生成方法,涉及图像生成领域。本发明有效利用了多模态图像的空间和信息互补性,并基于微调的CLIP文本编码器产生的文本嵌入特征引导生成,有效解决了去噪扩散模型无法有效的生成高保真度的多模态图像、生成的目标与环境条件类型有限的问题,同时在去噪生成的过程中引入了多尺度去噪的策略,实现了单个去噪扩散模型生成的不同尺度图像的能力。
技术关键词
生成方法
多模态
嵌入特征
文本编码器
模糊机制
双三次插值
生成多尺度
全卷积网络
重构
图像结构
模态特征
两阶段
模块
噪声
策略
系统为您推荐了相关专利信息
多任务
计算方法
物流配送路径优化
矩阵
状态更新
图像生成模型
点云
全局特征提取
交叉注意力机制
图像生成方法