摘要
一种以交互驱动的多对象内容可控图像生成方法,包括以下步骤:步骤1):获取图像数据以及其对应对象实例的分割与类别标签;步骤2):获取每一个对象实例的图像,并进行处理,得到分割后的对象图像;步骤3),提取每张对象图像的类别、深度、细节特征得到多尺度表征嵌入;步骤4),使用Transformer结构对象交互逻辑关系提取模块获取不同对象间的交互逻辑关系;步骤5),使用隐藏张量空间至文本模态空间多模态映射模块构建提示词控制Token,再结合所得对象类别标签构建提示词文本;步骤6),进行多步加噪与去噪,最终使用变分自编码器还原图像,最终得到对应的内容可控图像。本发明可以进行多对象控制生成且关注多对象间逻辑交互的特点。
技术关键词
图像生成方法
多尺度
标签
细粒度图像分类方法
注意力
编码器
语义
对象交互
图像分割
文本
关系建模
图像生成网络
多模态
数据
序列
自然语言
模块
系统为您推荐了相关专利信息
速度预测装置
交通速度预测方法
路段
处理器
注意力模型
条件对抗生成网络
FMCW激光雷达
数据处理模块
非线性
预校正方法
电力设施部件
三维点云模型
语义标签
三维点云数据
偏差
事件检测模型
事件检测方法
待测光纤
信号特征
检测模型训练
六自由度运动平台
机器人操作系统
异常监测方法
二维码
标记