摘要
本发明属于图像生成技术领域,公开了一种基于交叉注意力机制布局条件生成图像的方法,在总体损失中加入了质心损失,引入质心控制,对图像中的对象的位置控制的更精准;在总体损失中加入了残差注意力损失,很好地保持了语义连贯性和逻辑一致性。在去噪网络迭代过程中,基于向量更新公式调整潜在向量,无需额外的微调和配对的布局‑图像数据,保证了模型原有的生成能力,且成本更低。本发明方法具有即插即用的效果,生成符合布局的图像的速度不会减慢太多,可以方便地集成到当前现有的解决方案中。
技术关键词
残差模块
交叉注意力机制
布局
上采样
文本
对象
矩阵
中间层
图像生成技术
端点
网络
噪声
像素
语义
逻辑
编码
参数
系统为您推荐了相关专利信息
大语言模型
强化学习方法
数据
文本
图像生成模型
信息编码器
多尺度特征融合
解码器
注意力机制
疲劳裂纹长度
裂缝图像分割方法
上采样
解码器
全局平均池化
输出特征