摘要
本发明涉及生成图像编辑技术领域,提出了一种文本引导的生成图像编辑方法,首先,利用多模态预训练模型BLIP模型对给定的稳定扩散模型生成的图像进行多次推理生成对应的多个详细的文本描述;然后,使用ChatGPT对需要编辑的描述文本进行智能文本编辑,修改特定的视觉概念,以满足指导图像的具体编辑任务;接着,使用CLIP模型计算编辑前后的文本嵌入向量,以获取文本编辑的平均方向;然后,将文本编辑的平均方向加到原始的描述文本嵌入向量上,基于稳定扩散模型的交叉注意力机制来控制文本和图像对应关系,以精确控制图像的文本指导编辑过程,基于多个句子的平均语义方向不仅鲁棒,而且具有高度的隔离性。
技术关键词
图像编辑方法
文本
交叉注意力机制
预训练模型
图像编辑技术
超参数
多模态
语义
概念
视觉
关系
策略
阶段
系统为您推荐了相关专利信息
交叉注意力机制
结肠息肉图像
生成高分辨率
分支
结直肠息肉
场景文本图像
频域特征
图像块
篡改检测方法
计算机执行指令
精准校验系统
RGB颜色值
包装盒
渐变色
轮廓面积阈值
大语言模型
文本
数据处理算法
算法数据处理
问答方法
通话翻译方法
移动终端
耳机设备
翻译系统
云端服务器