摘要
本申请的实施例提供了一种图像生成模型的训练、图像生成方法、装置、介质及设备。图像生成模型包括多模态文本处理模块以及主模型,该训练方法包括:获取训练数据,其包括真实图像及其对应的多语言版本的文本描述;通过多模态文本处理模块对文本描述进行特征提取,得到文本特征;利用自编码器图片处理模块对真实图片进行编码,得到对应的图像编码;将文本特征以及图像编码作为主模型的输入,以使主模型生成对应的预测图像,并通过最小化预测图像与真实图像之间的重建损失以优化主模型的性能。本申请实施例的技术方案可以在准确理解不同语言的文本输入的同时,提高图像生成模型对长文本输入的处理能力,进而保证图像生成模型所生成的图像的准确性。
技术关键词
图像生成模型
图像编码
文本
多模态
图像生成方法
图像重建
随机噪声
图片
训练装置
图像生成装置
编码器
大语言模型
处理器
编码模块
数据
存储装置
介质
系统为您推荐了相关专利信息
局部视觉特征
全局视觉特征
票据自动识别
编码向量
决策方法