摘要
本申请提供一种多实体图像生成方法、装置、电子设备及存储介质。该方法包括:对文本描述进行编码,得到全局文本描述特征,对实体标签进行编码,得到实体标签文本特征;对参考图像进行视觉特征提取,得到视觉嵌入特征,对目标框位置进行编码,得到目标框特征;将视觉嵌入特征与目标框特征进行拼接,并将拼接后的特征与实体标签文本特征进行交叉注意力计算,生成最终实体嵌入特征,将多个实体的最终实体嵌入特征进行拼接,得到多实体嵌入特征;将全局文本描述特征和多实体嵌入特征输入到扩散模型中处理,输出符合文本描述的目标图像。本申请能够避免多实体概念混淆,有效解耦不同实体的特征,降低计算成本,生成符合文本描述的图像。
技术关键词
嵌入特征
注意力
标签文本
视觉特征提取
图像生成方法
子模块
文本编码器
图像编码器
多层感知机
编码特征
图像生成装置
标识实体
位置编码器
系统为您推荐了相关专利信息
防伪方法
池化特征
人脸识别模型
卷积模块
图像分割
预警模型
终端设备
数据采集组件
历史性能数据
时间序列预测模型
交叉口车辆
深度强化学习
协作方法
强化学习算法
协作策略