摘要
本发明公开了一种基于分化注意力和去噪过程引导的多目标图像生成方法,其步骤包括:1)针对给定包括N个目标词的文本提示y以及一初始隐编码zT,利用稳定扩散模型生成文本提示y中每一目标词与zT之间的交叉注意力图CAT;2)通过设定损失函数优化初始隐编码zT;3)稳定扩散模型生成文本提示y中每一目标词与优化后的初始隐编码zT之间的最优交叉注意力图4)稳定扩散模型对优化后的初始隐编码zT进行迭代去噪并对设定时间步生成的交叉注意力图进行插值;然后对迭代去噪结束所得隐编码z0进行解码生成该文本提示y对应的图像。本发明有效提高生成图像与给定文本提示之间的语义匹配性。
技术关键词
注意力
图像生成方法
编码
损失函数优化
文本
存储计算机程序
处理器
可读存储介质
解码
存储器
服务器
语义
指令
参数
系统为您推荐了相关专利信息
节点更新
布局方法
元素
海报
非易失性计算机可读存储介质