摘要
本公开描述了用于使用机器学习模型进行快速个性化图像生成的技术。由机器学习模型的第一子模型生成上下文化的特征。上下文化的特征是基于对象图像和文本提示词生成的。对象图像包括目标对象。文本提示词描绘了目标图像,并且指示以下至少一项:改变目标对象的纹理,或者将目标对象放置在特定上下文中。基于对象图像生成自注意力特征。自注意力特征包含关于目标对象的详细信息。通过机器学习模型的第二子模型,基于上下文化的特征和自注意力特征生成目标图像。第二子模型包括上下文交叉注意力层和对象交叉注意力层。目标图像保持目标对象的身份相关信息。
技术关键词
机器学习模型
注意力
对象
计算机可读指令
非暂态计算机可读存储介质
文本
输出提示词
处理器
图像嵌入
纹理
编辑
身份
流水线
序列
存储器
机制
颜色
系统为您推荐了相关专利信息
假新闻检测方法
图片
文本特征向量
注意力机制
矩阵
一维卷积神经网络
浓度预测方法
深度学习模型
静脉
滑动窗口
网格特征
视觉特征
语义特征
残差归一化
注意力机制
工业设备
融合多源特征
注意力机制
编码模块
风力发电机组齿轮箱