一种以交互驱动的多对象内容可控图像生成方法

正文

推荐专利

申请号：CN202510953209

申请日期：2025-07-10

公开号：CN120563986A

公开日期：2025-08-29

类型：发明专利

摘要

一种以交互驱动的多对象内容可控图像生成方法，包括以下步骤：步骤1)：获取图像数据以及其对应对象实例的分割与类别标签；步骤2)：获取每一个对象实例的图像，并进行处理，得到分割后的对象图像；步骤3)，提取每张对象图像的类别、深度、细节特征得到多尺度表征嵌入；步骤4)，使用Transformer结构对象交互逻辑关系提取模块获取不同对象间的交互逻辑关系；步骤5)，使用隐藏张量空间至文本模态空间多模态映射模块构建提示词控制Token，再结合所得对象类别标签构建提示词文本；步骤6)，进行多步加噪与去噪，最终使用变分自编码器还原图像，最终得到对应的内容可控图像。本发明可以进行多对象控制生成且关注多对象间逻辑交互的特点。

技术关键词

图像生成方法多尺度标签细粒度图像分类方法注意力编码器语义对象交互图像分割文本关系建模图像生成网络多模态数据序列自然语言模块

系统为您推荐了相关专利信息

用于预测交通速度的装置和方法

速度预测装置交通速度预测方法路段处理器注意力模型

一种基于对抗生成网络的FMCW激光光源非线性预校正方法及系统

条件对抗生成网络 FMCW激光雷达数据处理模块非线性预校正方法

一种点云数据驱动的三维建模调整方法

电力设施部件三维点云模型语义标签三维点云数据偏差

光纤事件检测方法、装置、电子设备及存储介质

事件检测模型事件检测方法待测光纤信号特征检测模型训练

一种六自由度运动平台位姿异常监测方法、系统及装置

六自由度运动平台机器人操作系统异常监测方法二维码标记

一种以交互驱动的多对象内容可控图像生成方法

站点导航

APP 下载