摘要
一种基于去噪扩散一致性模型采样的两阶段非刚性图像编辑方法,包括:通过预训练的潜在一致性模型LCM对原图像进行重建,提取并保存原图像的交叉注意力图和自注意力图;第一阶段:在目标文本引导下,将原图像的交叉注意力图注入到编辑过程的交叉注意力层中,生成中间图像,以调整对象的动作或姿态并保留原图像的空间布局;第二阶段:将原图像的自注意力层的键和值注入到中间图像的自注意力层中,生成最终目标图像,以保留原对象的身份属性特征;第一和第二阶段仅通过调整采样过程实现非刚性编辑,且交叉注意力与自注意力的注入分阶段独立控制,从而避免相互干扰。本发明的方法在权衡文本忠实度与编辑前后的高级语义信息一致性方面优势显著。
技术关键词
注意力
图像编辑方法
图像重建
对象属性特征
序列比对算法
分阶段
文本
计算机程序产品
随机噪声
可读存储介质
校准
身份
处理器
语义
布局
变量
系统为您推荐了相关专利信息
牛肉新鲜度
牛肉图像
深度学习模型
注意力
金字塔池化模块
图像融合方法
多级卷积神经网络
多通道特征
卷积滤波器
特征提取器
医用灭菌器
时间补偿方法
液体
局部二值模式
灰度共生矩阵
音乐生成方法
文本
矢量量化
大语言模型
交叉注意力机制