一种基于扩散大模型的图像上文本的可控生成方法

AITNT
正文
推荐专利
一种基于扩散大模型的图像上文本的可控生成方法
申请号:CN202510058709
申请日期:2025-01-15
公开号:CN119850792A
公开日期:2025-04-18
类型:发明专利
摘要
本发明公开一种基于扩散大模型的图像上文本的可控生成方法,该方法可以定制生成用户所需的图像。具体来说首先通过使用Transformer对用户输入的提示词进行语义提取,进而生成符合用户需求的字体布局图像,将字体布局图像连同用户提示词输入到控制网络以生成控制向量,通过指导逐步降噪过程达到可控生成的目的,并通过字符感知损失来加强可控生成的效果。此外,本发明方法提出一种有效的参数微调策略,来避免生成模型过拟合或者灾难性遗忘在仅更新不到总参数的3%的情况下实现了连贯的文本生成,显著加速了模型的收敛过程。最后,对于目标区域生成部分,为减少背景部分带来的影响,使用背景重建机制来保留原始图中非目标区域的部分,减少背景信息的损失。
技术关键词
关键词 文本编码器 解码模块 布局 噪声图像 图像生成网络 图片 解码器 生成方法 图像模板 卷积模块 字符 编码模块 中间层
系统为您推荐了相关专利信息
1
一种AI语音资源智能调用方法及平台
音频 兴趣 AI语音 查询关键词 参数
2
图像检索方法、装置、设备及存储介质
图像检索模型 图像检索方法 检索图像 样本 图像增强
3
一种基于遗传算法优化的网格窄井结构相位布局优化方法
布局优化方法 遗传算法优化 散射声场 微电机 网格装置
4
一种基于数据分析的问题定位与解决策略智能建议方法
建议方法 报表 问答模型 关键词 贝叶斯算法
5
多模态图像检索方法、装置、电子设备及可读存储介质
嵌入特征 图像嵌入 检索对象 融合特征 文本编码器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号