多模态图像生成方法及装置

正文

推荐专利

多模态图像生成方法及装置

申请号：CN202411515350

申请日期：2024-10-28

公开号：CN119540382A

公开日期：2025-02-28

类型：发明专利

摘要

本申请提供了一种多模态图像生成方法及装置。该方法包括：将参考图像和文本描述输入多模态图像生成模型：通过图像特征提取网络提取参考图像的图像特征；通过文本编码器提取文本描述的文本特征；通过噪声图生成网络随机生成噪声图；通过注意力层处理噪声图，得到噪声特征；通过第一个交叉注意力层处理文本特征和噪声特征，得到注意力特征；通过第二个交叉注意力层处理图像特征和注意力特征，得到目标图像。采用上述技术手段，解决现有技术中，生成图像无法在保留参考图像的关键特征的基础上符合文本描述的个性化效果的问题。

技术关键词

图像特征提取图像生成模型噪声特征多模态文本编码器图像编码器网络多层感知器图像生成方法感知特征编码特征生成噪声训练注意力图像生成装置可读存储介质

多模态图像生成方法及装置

站点导航

APP 下载