摘要
本发明公开了一种基于扩散模型的布局可控图像个性化生成方法,包括:1、获取视频和图像数据以及对应的文本描述、掩码和边界框标注;2、构建扩散模型适配器,嵌入参考主体特征、边界框和文本描述;3、对构建的扩散模型适配器进行离线训练;4、利用训练好的模型进行生成,以实现对给定图像主体进行主体驱动的定制化生成的目标。本发明通过利用轻量适配器引入位置信息和参考主体特征的方式,实现了任意位置生成任意参考物体的能力,提升了主体特征保持能力和位置可控性,从而允许用户自主生成高度定制的图像。
技术关键词
个性化生成方法
注意力
文本编码器
静态特征
实例分割
图像
多层感知机
命名实体识别模型
适配器
布局
动态
视觉特征
标签
变量
标记
嵌入特征
采样器
视频
系统为您推荐了相关专利信息
医学图像分割方法
模糊边界
分割医学图像
编码器
高层语义特征
多头注意力机制
三维场景空间
前馈神经网络
神经网络训练
图像处理
多模态数据融合
环境风险评估
子模块
多模态数据采集
环境风险监测技术
气体泄漏检测方法
二维高斯模型
时序特征
多模态数据融合
时间卷积网络