摘要
本申请提供了一种多模态图像生成方法及装置。该方法包括:将参考图像和文本描述输入多模态图像生成模型:通过图像特征提取网络提取参考图像的图像特征;通过文本编码器提取文本描述的文本特征;通过噪声图生成网络随机生成噪声图;通过注意力层处理噪声图,得到噪声特征;通过第一个交叉注意力层处理文本特征和噪声特征,得到注意力特征;通过第二个交叉注意力层处理图像特征和注意力特征,得到目标图像。采用上述技术手段,解决现有技术中,生成图像无法在保留参考图像的关键特征的基础上符合文本描述的个性化效果的问题。
技术关键词
图像特征提取
图像生成模型
噪声特征
多模态
文本编码器
图像编码器
网络
多层感知器
图像生成方法
感知特征
编码特征
生成噪声
训练注意力
图像生成装置
可读存储介质