摘要
本申请实施例属于人工智能领域,涉及一种文本到图像生成方法,包括获取随机采样的噪声向量和图像的原始文本;将噪声向量和图像的原始文本输入至预训练扩散模型中生成粗糙的图像和细致的图像;计算粗糙的图像和细致的图像的差异,并将差异作为质量指导;计算文本和图像相似性并作为语义指导;根据质量指导和语义指导对输入文本进行学习提示;将输入文本与所述学习提示连接并发送到文本编码器得到最终文本嵌入;将最终文本嵌入和随机采样的噪声向量发送到预训练的扩散模型,生成最终图像。本申请还提供一种文本到图像生成装置、计算机设备及存储介质。本申请有效地提高了文本到图像合成的准确性。
技术关键词
图像生成方法
计算机可读指令
文本编码器
图像生成装置
语义
计算机设备
噪声数据
线性回归算法
深度神经网络
可读存储介质
图像编码
词语
处理器
输入模块
优化器
指数