一种基于分布正则化的跨模态文本生成图像方法

正文

推荐专利

申请号：CN202510408998

申请日期：2025-04-02

公开号：CN120355803A

公开日期：2025-07-22

类型：发明专利

摘要

本发明公开一种基于分布正则化的跨模态文本生成图像方法。首先，文本编码器对COCO等数据集的文本进行编码，得到单词特征向量和全局句子特征向量。其次，特征向量经过三个阶段生成器，生成不同分辨率图像。再次，在判别器模块中引入变分自编码器，对生成图像进行分布正则化，判别器基于编码后的图像进行真伪判断。然后，将真实图像和生成的图像作为输入计算判别器的损失，经过多次迭代优化模型。最后，使用IS和FID指标对训练的最优图像模型进行评估，衡量生成图像的质量和模型性能。经实验验证，该方法可有效基于文本的语义生成对应图像，有效解决判别模型难以区分输入图像的真伪问题。本发明所得到的指标数据表现均优于原始模型AttnGAN。

技术关键词

文本生成图像方法生成对抗网络编码器模块文本编码器采样模块分类器解码器图像重建分辨率阶段语义上采样逻辑参数

系统为您推荐了相关专利信息

一种少类多种多模态医疗数据融合的方法、系统、电子设备、可读存储介质

多模态数据多任务模态特征解码方式

一种棱镜柱面镜组合光学元件的套件及其光路调试方法

柱面镜组合光学元件多层感知模型多层次特征棱镜

基于大模型的推测解码方法、装置、设备以及存储介质

序列掩码矩阵注意力子模块多模态

一种基于多场景多模态大模型的质控方法及系统

多模态医学影像文本编码器图像编码器预训练模型多场景

基于检索及多模态大模型的少样本细粒度图像分类方法

细粒度图像分类样本多模态图像编码器文本编码器

一种基于分布正则化的跨模态文本生成图像方法

站点导航

APP 下载