基于交互控制的文本到图像生成方法、系统、设备及介质

正文

推荐专利

申请号：CN202510413253

申请日期：2025-04-03

公开号：CN119919526B

公开日期：2025-07-25

类型：发明专利

摘要

本申请公开了一种基于交互控制的文本到图像生成方法、系统、设备及介质，该方法通过构建包含第一编码器和第一解码器的文本到图像扩散模型，以及，构建包含第二编码器和第二解码器的图像到文本模型；将文本到图像扩散模型与图像到文本模型连接，构建图像生成模型；采用训练噪声图像、第一交互信息和第一文本信息训练构建好的图像生成模型，得到训练好的图像生成模型；将待生成噪声图像、第二交互信息和第二文本信息输入至训练好的图像生成模型中的文本到图像扩散模型，得到多张生成图像；将多张生成图像输入至训练好的图像生成模型中的图像到文本模型，筛选出目标生成图像。本申请能够提高图像生成的质量。

技术关键词

图像生成模型文本图像生成方法生成噪声噪声图像交叉注意力机制编码器解码器交互实体计算机可执行指令令牌分词图像生成系统图像生成单元数据获取单元可读存储介质处理器

系统为您推荐了相关专利信息

文本处理方法、装置、电子设备以及存储介质

文本处理方法关键词层级拓扑图摘要

法律支持系统的控制方法、设备及存储介质

案件实体解析方法生成法律文书关系

一种基于整体语义特征提取的中文文字识别方法

中文文字识别方法语义特征提取局部注意力机制多头注意力机制解码

一种半导体测试方法

半导体测试方法 SIMD指令集硬件板卡周期自动化测试设备

一种基于大语言模型的数据结构自适应可视化方法

大语言模型非结构化文本可视化方法金融风险

基于交互控制的文本到图像生成方法、系统、设备及介质

站点导航

APP 下载