一种文本引导的生成图像编辑方法

正文

推荐专利

一种文本引导的生成图像编辑方法

申请号：CN202411728178

申请日期：2024-11-28

公开号：CN119579735A

公开日期：2025-03-07

类型：发明专利

摘要

本发明涉及生成图像编辑技术领域，提出了一种文本引导的生成图像编辑方法，首先，利用多模态预训练模型BLIP模型对给定的稳定扩散模型生成的图像进行多次推理生成对应的多个详细的文本描述；然后，使用ChatGPT对需要编辑的描述文本进行智能文本编辑，修改特定的视觉概念，以满足指导图像的具体编辑任务；接着，使用CLIP模型计算编辑前后的文本嵌入向量，以获取文本编辑的平均方向；然后，将文本编辑的平均方向加到原始的描述文本嵌入向量上，基于稳定扩散模型的交叉注意力机制来控制文本和图像对应关系，以精确控制图像的文本指导编辑过程，基于多个句子的平均语义方向不仅鲁棒，而且具有高度的隔离性。

技术关键词

图像编辑方法文本交叉注意力机制预训练模型图像编辑技术超参数多模态语义概念视觉关系策略阶段

系统为您推荐了相关专利信息

基于改进TransFuse的结肠息肉图像分割方法

交叉注意力机制结肠息肉图像生成高分辨率分支结直肠息肉

文本篡改检测方法、装置、设备及存储介质

场景文本图像频域特征图像块篡改检测方法计算机执行指令

一种基于COR误差处理的包装盒文本信息精准校验系统

精准校验系统 RGB颜色值包装盒渐变色轮廓面积阈值

基于大语言模型的问答方法、装置、设备和存储介质

大语言模型文本数据处理算法算法数据处理问答方法

通话翻译方法、装置及系统

通话翻译方法移动终端耳机设备翻译系统云端服务器

一种文本引导的生成图像编辑方法

站点导航

APP 下载