一种基于扩散大模型的图像上文本的可控生成方法

正文

推荐专利

申请号：CN202510058709

申请日期：2025-01-15

公开号：CN119850792A

公开日期：2025-04-18

类型：发明专利

摘要

本发明公开一种基于扩散大模型的图像上文本的可控生成方法，该方法可以定制生成用户所需的图像。具体来说首先通过使用Transformer对用户输入的提示词进行语义提取，进而生成符合用户需求的字体布局图像，将字体布局图像连同用户提示词输入到控制网络以生成控制向量，通过指导逐步降噪过程达到可控生成的目的，并通过字符感知损失来加强可控生成的效果。此外，本发明方法提出一种有效的参数微调策略，来避免生成模型过拟合或者灾难性遗忘在仅更新不到总参数的3％的情况下实现了连贯的文本生成，显著加速了模型的收敛过程。最后，对于目标区域生成部分，为减少背景部分带来的影响，使用背景重建机制来保留原始图中非目标区域的部分，减少背景信息的损失。

技术关键词

关键词文本编码器解码模块布局噪声图像图像生成网络图片解码器生成方法图像模板卷积模块字符编码模块中间层

系统为您推荐了相关专利信息

一种AI语音资源智能调用方法及平台

音频兴趣 AI语音查询关键词参数

图像检索方法、装置、设备及存储介质

图像检索模型图像检索方法检索图像样本图像增强

一种基于遗传算法优化的网格窄井结构相位布局优化方法

布局优化方法遗传算法优化散射声场微电机网格装置

一种基于数据分析的问题定位与解决策略智能建议方法

建议方法报表问答模型关键词贝叶斯算法

多模态图像检索方法、装置、电子设备及可读存储介质

嵌入特征图像嵌入检索对象融合特征文本编码器

一种基于扩散大模型的图像上文本的可控生成方法

站点导航

APP 下载