摘要
本发明公开了一种基于扩散模型的可推广的布局到图像生成方法,其特点是该方法包括:构建符合自然语言表达的布局‑文本‑图片数据集;获取图像特征、文本特征和噪声图像特征;生成用于训练的语义布局特征;计算损失更新语义布局编码器参数;给定布局‑文本信息生成图片等步骤。本发明与现有技术相比具有可推广其他微调后的扩散模型上的能力,直接应用到使用个性化数据集进行微调后的扩散模型上,通过布局生成个性化的图片,并可以与其他基于扩散模型的可控生成方法一起使用,方法便捷,效果优异,具有良好的应用前景。
技术关键词
注意力地图
布局特征
图像生成方法
语义
噪声图像
图片
文本编码器
自然语言
大语言模型
生成图像特征
交叉注意力机制
多模态
编码器参数
图像编码器
系统为您推荐了相关专利信息
人脸识别方法
去模糊图像
神经网络算法
人脸检测模型
人脸识别模型
细粒度情感分析方法
高维特征向量
注意力机制
自定义模板
输入解码器