摘要
本申请提供一种文本引导图像生成方法、装置、电子设备及存储介质。该方法包括:接收用户输入的文本提示词,文本提示词中包括目标图像的画面信息;从文本提示词中提取基础提示词,并根据文本提示词及基础提示词生成多个子提示词,子提示词用于细化目标图像中的主体及背景;根据文本提示词及子提示词中的空间位置信息确定目标图像的画面布局方式;将文本提示词、子提示词及画面布局方式输入至预定的图像生成模型中,利用图像生成模型识别并处理多个主体之间的关系,生成符合文本提示词描述的目标图像。本申请能够避免多属性、多主体之间出现混淆,提升多概念之间的布局合理性,满足复杂场景下的图像生成需求。
技术关键词
图像生成模型
布局方式
文本
图像生成方法
变量
画面
引导图像生成装置
分块
基础
图像生成网络
交叉注意力机制
元素
关系
电子设备
可读存储介质
深度学习模型
大语言模型
处理器
系统为您推荐了相关专利信息
客流预测系统
客流预测方法
站点
深度强化学习
节假日信息
图像生成方法
可见光图像
图像生成模型
物理
速度