摘要
本申请公开了一种基于交互控制的文本到图像生成方法、系统、设备及介质,该方法通过构建包含第一编码器和第一解码器的文本到图像扩散模型,以及,构建包含第二编码器和第二解码器的图像到文本模型;将文本到图像扩散模型与图像到文本模型连接,构建图像生成模型;采用训练噪声图像、第一交互信息和第一文本信息训练构建好的图像生成模型,得到训练好的图像生成模型;将待生成噪声图像、第二交互信息和第二文本信息输入至训练好的图像生成模型中的文本到图像扩散模型,得到多张生成图像;将多张生成图像输入至训练好的图像生成模型中的图像到文本模型,筛选出目标生成图像。本申请能够提高图像生成的质量。
技术关键词
图像生成模型
文本
图像生成方法
生成噪声
噪声图像
交叉注意力机制
编码器
解码器
交互实体
计算机可执行指令
令牌
分词
图像生成系统
图像生成单元
数据获取单元
可读存储介质
处理器
系统为您推荐了相关专利信息
中文文字识别方法
语义特征提取
局部注意力机制
多头注意力机制
解码
半导体测试方法
SIMD指令集
硬件板卡
周期
自动化测试设备