摘要
本发明公开一种基于扩散大模型的图像上文本的可控生成方法,该方法可以定制生成用户所需的图像。具体来说首先通过使用Transformer对用户输入的提示词进行语义提取,进而生成符合用户需求的字体布局图像,将字体布局图像连同用户提示词输入到控制网络以生成控制向量,通过指导逐步降噪过程达到可控生成的目的,并通过字符感知损失来加强可控生成的效果。此外,本发明方法提出一种有效的参数微调策略,来避免生成模型过拟合或者灾难性遗忘在仅更新不到总参数的3%的情况下实现了连贯的文本生成,显著加速了模型的收敛过程。最后,对于目标区域生成部分,为减少背景部分带来的影响,使用背景重建机制来保留原始图中非目标区域的部分,减少背景信息的损失。
技术关键词
关键词
文本编码器
解码模块
布局
噪声图像
图像生成网络
图片
解码器
生成方法
图像模板
卷积模块
字符
编码模块
中间层
系统为您推荐了相关专利信息
图像检索模型
图像检索方法
检索图像
样本
图像增强
布局优化方法
遗传算法优化
散射声场
微电机
网格装置
嵌入特征
图像嵌入
检索对象
融合特征
文本编码器