一种文本引导的生成图像编辑方法

AITNT
正文
推荐专利
一种文本引导的生成图像编辑方法
申请号:CN202411728178
申请日期:2024-11-28
公开号:CN119579735A
公开日期:2025-03-07
类型:发明专利
摘要
本发明涉及生成图像编辑技术领域,提出了一种文本引导的生成图像编辑方法,首先,利用多模态预训练模型BLIP模型对给定的稳定扩散模型生成的图像进行多次推理生成对应的多个详细的文本描述;然后,使用ChatGPT对需要编辑的描述文本进行智能文本编辑,修改特定的视觉概念,以满足指导图像的具体编辑任务;接着,使用CLIP模型计算编辑前后的文本嵌入向量,以获取文本编辑的平均方向;然后,将文本编辑的平均方向加到原始的描述文本嵌入向量上,基于稳定扩散模型的交叉注意力机制来控制文本和图像对应关系,以精确控制图像的文本指导编辑过程,基于多个句子的平均语义方向不仅鲁棒,而且具有高度的隔离性。
技术关键词
图像编辑方法 文本 交叉注意力机制 预训练模型 图像编辑技术 超参数 多模态 语义 概念 视觉 关系 策略 阶段
系统为您推荐了相关专利信息
1
基于改进TransFuse的结肠息肉图像分割方法
交叉注意力机制 结肠息肉图像 生成高分辨率 分支 结直肠息肉
2
文本篡改检测方法、装置、设备及存储介质
场景文本图像 频域特征 图像块 篡改检测方法 计算机执行指令
3
一种基于COR误差处理的包装盒文本信息精准校验系统
精准校验系统 RGB颜色值 包装盒 渐变色 轮廓面积阈值
4
基于大语言模型的问答方法、装置、设备和存储介质
大语言模型 文本 数据处理算法 算法数据处理 问答方法
5
通话翻译方法、装置及系统
通话翻译方法 移动终端 耳机设备 翻译系统 云端服务器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号