一种以交互驱动的多对象内容可控图像生成方法

AITNT
正文
推荐专利
一种以交互驱动的多对象内容可控图像生成方法
申请号:CN202510953209
申请日期:2025-07-10
公开号:CN120563986A
公开日期:2025-08-29
类型:发明专利
摘要
一种以交互驱动的多对象内容可控图像生成方法,包括以下步骤:步骤1):获取图像数据以及其对应对象实例的分割与类别标签;步骤2):获取每一个对象实例的图像,并进行处理,得到分割后的对象图像;步骤3),提取每张对象图像的类别、深度、细节特征得到多尺度表征嵌入;步骤4),使用Transformer结构对象交互逻辑关系提取模块获取不同对象间的交互逻辑关系;步骤5),使用隐藏张量空间至文本模态空间多模态映射模块构建提示词控制Token,再结合所得对象类别标签构建提示词文本;步骤6),进行多步加噪与去噪,最终使用变分自编码器还原图像,最终得到对应的内容可控图像。本发明可以进行多对象控制生成且关注多对象间逻辑交互的特点。
技术关键词
图像生成方法 多尺度 标签 细粒度图像分类方法 注意力 编码器 语义 对象交互 图像分割 文本 关系建模 图像生成网络 多模态 数据 序列 自然语言 模块
系统为您推荐了相关专利信息
1
用于预测交通速度的装置和方法
速度预测装置 交通速度预测方法 路段 处理器 注意力模型
2
一种基于对抗生成网络的FMCW激光光源非线性预校正方法及系统
条件对抗生成网络 FMCW激光雷达 数据处理模块 非线性 预校正方法
3
一种点云数据驱动的三维建模调整方法
电力设施部件 三维点云模型 语义标签 三维点云数据 偏差
4
光纤事件检测方法、装置、电子设备及存储介质
事件检测模型 事件检测方法 待测光纤 信号特征 检测模型训练
5
一种六自由度运动平台位姿异常监测方法、系统及装置
六自由度运动平台 机器人操作系统 异常监测方法 二维码 标记
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号