一种基于扩散模型的布局可控图像个性化生成方法

正文

推荐专利

申请号：CN202510118789

申请日期：2025-01-24

公开号：CN120014117A

公开日期：2025-05-16

类型：发明专利

摘要

本发明公开了一种基于扩散模型的布局可控图像个性化生成方法，包括：1、获取视频和图像数据以及对应的文本描述、掩码和边界框标注；2、构建扩散模型适配器，嵌入参考主体特征、边界框和文本描述；3、对构建的扩散模型适配器进行离线训练；4、利用训练好的模型进行生成，以实现对给定图像主体进行主体驱动的定制化生成的目标。本发明通过利用轻量适配器引入位置信息和参考主体特征的方式，实现了任意位置生成任意参考物体的能力，提升了主体特征保持能力和位置可控性，从而允许用户自主生成高度定制的图像。

技术关键词

个性化生成方法注意力文本编码器静态特征实例分割图像多层感知机命名实体识别模型适配器布局动态视觉特征标签变量标记嵌入特征采样器视频

系统为您推荐了相关专利信息

基于边界优化的医学图像分割方法

医学图像分割方法模糊边界分割医学图像编码器高层语义特征

多模态融合的3D目标检测方法、装置、设备及存储介质

多头注意力机制三维场景空间前馈神经网络神经网络训练图像处理

基于多模态数据融合的AR动态环境感知算法的方法

多模态数据融合环境风险评估子模块多模态数据采集环境风险监测技术

一种基于人工智能的有害气体泄漏检测方法

气体泄漏检测方法二维高斯模型时序特征多模态数据融合时间卷积网络

施工现场安全检测方法、装置、设备及介质

建筑信息模型施工现场便携相机热力图坐标点

一种基于扩散模型的布局可控图像个性化生成方法

站点导航

APP 下载