摘要
本公开实施例公开了一种图像编辑方法、装置、存储介质及电子设备,其中,该方法包括:获取待编辑图像和编辑指令;利用预训练的多模态大模型,基于待编辑图像和编辑指令,生成目标图像的词元;从目标图像的词元中截取目标图像的视觉词元;利用预训练的扩散模型,基于待编辑图像的隐空间表示、编辑指令对应的文本词元以及视觉词元,生成目标图像的隐空间表示,其中,预训练的扩散模型具有多重条件引导架构;对目标图像的隐空间表示进行解码处理,得到目标图像。本公开通过增加多模态大模型生成的视觉词元作为约束条件,使得生成的目标图像更加贴近于用户的编辑指令,提高了图像编辑效果。
技术关键词
图像编辑方法
视觉
指令
文本
训练样本集
图像编辑装置
交叉注意力机制
电子设备
多层感知机
解码模块
处理器
可读存储介质
多模态
存储器