摘要
本发明公开一种基于分布正则化的跨模态文本生成图像方法。首先,文本编码器对COCO等数据集的文本进行编码,得到单词特征向量和全局句子特征向量。其次,特征向量经过三个阶段生成器,生成不同分辨率图像。再次,在判别器模块中引入变分自编码器,对生成图像进行分布正则化,判别器基于编码后的图像进行真伪判断。然后,将真实图像和生成的图像作为输入计算判别器的损失,经过多次迭代优化模型。最后,使用IS和FID指标对训练的最优图像模型进行评估,衡量生成图像的质量和模型性能。经实验验证,该方法可有效基于文本的语义生成对应图像,有效解决判别模型难以区分输入图像的真伪问题。本发明所得到的指标数据表现均优于原始模型AttnGAN。
技术关键词
文本生成图像方法
生成对抗网络
编码器模块
文本编码器
采样模块
分类器
解码器
图像重建
分辨率
阶段
语义
上采样
逻辑
参数
系统为您推荐了相关专利信息
柱面镜组合
光学元件
多层感知模型
多层次特征
棱镜
多模态医学影像
文本编码器
图像编码器
预训练模型
多场景
细粒度图像分类
样本
多模态
图像编码器
文本编码器