一种基于分布正则化的跨模态文本生成图像方法

AITNT
正文
推荐专利
一种基于分布正则化的跨模态文本生成图像方法
申请号:CN202510408998
申请日期:2025-04-02
公开号:CN120355803A
公开日期:2025-07-22
类型:发明专利
摘要
本发明公开一种基于分布正则化的跨模态文本生成图像方法。首先,文本编码器对COCO等数据集的文本进行编码,得到单词特征向量和全局句子特征向量。其次,特征向量经过三个阶段生成器,生成不同分辨率图像。再次,在判别器模块中引入变分自编码器,对生成图像进行分布正则化,判别器基于编码后的图像进行真伪判断。然后,将真实图像和生成的图像作为输入计算判别器的损失,经过多次迭代优化模型。最后,使用IS和FID指标对训练的最优图像模型进行评估,衡量生成图像的质量和模型性能。经实验验证,该方法可有效基于文本的语义生成对应图像,有效解决判别模型难以区分输入图像的真伪问题。本发明所得到的指标数据表现均优于原始模型AttnGAN。
技术关键词
文本生成图像方法 生成对抗网络 编码器模块 文本编码器 采样模块 分类器 解码器 图像重建 分辨率 阶段 语义 上采样 逻辑 参数
系统为您推荐了相关专利信息
1
一种少类多种多模态医疗数据融合的方法、系统、电子设备、可读存储介质
多模态 数据 多任务 模态特征 解码方式
2
一种棱镜柱面镜组合光学元件的套件及其光路调试方法
柱面镜组合 光学元件 多层感知模型 多层次特征 棱镜
3
基于大模型的推测解码方法、装置、设备以及存储介质
序列 掩码矩阵 注意力 子模块 多模态
4
一种基于多场景多模态大模型的质控方法及系统
多模态医学影像 文本编码器 图像编码器 预训练模型 多场景
5
基于检索及多模态大模型的少样本细粒度图像分类方法
细粒度图像分类 样本 多模态 图像编码器 文本编码器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号