摘要
本发明公开了一种基于交叉注意力重分配的多实例可控图像生成方法,首先构建ChatGPT代码提示链CoC。然后在ChatGPT中使用代码提示链,生成符合多实例文本提示生成任务中所需要的布局。然后在扩散模型每一个时间步中获得交叉注意力图,并基于布局信息,获得两个引导损失。最后使用损失引导修改当前时间步上的预测噪声,迭代优化的噪声图像最终通过解码器得到生成的多实例可控图像。本发明缓解实体缺失、属性互换、属性泄露、空间布局错误等问题的出现,在图像编辑、个性化生成和虚拟试衣等领域中实现更准确、高质量的图像生成和修改,为用户提供更符合个性化需求的服务。
技术关键词
图像生成方法
注意力
布局
优化噪声
文本编码器
令牌
补丁
对象
噪声图像
解码器
多实例
定义
虚拟试衣
噪声样本
大语言模型
嵌入特征
系统为您推荐了相关专利信息
家畜
多分辨率特征
点云局部
测量方法
特征信息处理
语音特征
编码器
文本
强化学习框架
多头注意力机制
重构模型
特征辨识模块
混合特征提取
积层
多场景