多实体图像生成方法、装置、电子设备及存储介质

正文

推荐专利

申请号：CN202510927790

申请日期：2025-07-07

公开号：CN120655765A

公开日期：2025-09-16

类型：发明专利

摘要

本申请提供一种多实体图像生成方法、装置、电子设备及存储介质。该方法包括：对文本描述进行编码，得到全局文本描述特征，对实体标签进行编码，得到实体标签文本特征；对参考图像进行视觉特征提取，得到视觉嵌入特征，对目标框位置进行编码，得到目标框特征；将视觉嵌入特征与目标框特征进行拼接，并将拼接后的特征与实体标签文本特征进行交叉注意力计算，生成最终实体嵌入特征，将多个实体的最终实体嵌入特征进行拼接，得到多实体嵌入特征；将全局文本描述特征和多实体嵌入特征输入到扩散模型中处理，输出符合文本描述的目标图像。本申请能够避免多实体概念混淆，有效解耦不同实体的特征，降低计算成本，生成符合文本描述的图像。

技术关键词

嵌入特征注意力标签文本视觉特征提取图像生成方法子模块文本编码器图像编码器多层感知机编码特征图像生成装置标识实体位置编码器

系统为您推荐了相关专利信息

一种人脸识别防伪方法、装置、设备、介质及程序产品

防伪方法池化特征人脸识别模型卷积模块图像分割

终端设备的预警方法、装置以及计算机设备

预警模型终端设备数据采集组件历史性能数据时间序列预测模型

文本识别方法以及存储介质

识别特征图像分割网络文本识别方法掩膜标记

基于风险图注意力和深度强化学习的交叉口车辆协作方法

交叉口车辆深度强化学习协作方法强化学习算法协作策略

基于目标先验自回归查询的RGBL跟踪方法

令牌语义跟踪方法视觉特征特征提取模块

多实体图像生成方法、装置、电子设备及存储介质

站点导航

APP 下载