摘要
本申请提供一种基于检索增强与多源特征融合的图像生成方法及装置。该方法包括:对参考图像进行特征提取,并根据参考图像的特征,对检索增强生成库中的图像特征进行相似度检索,得到检索图像;对参考图像和检索图像进行编码,得到相应的全局特征,对全局特征进行多视角特征注意力处理,得到综合图像特征;将全局文本描述和局部文本描述按照语义结构拆分为若干个分段描述,并利用检索增强生成库对分段描述进行检索和扩充,得到综合文本描述特征;将综合文本描述特征与综合图像特征输入到扩散模型中进行特征融合,并输出符合参考图像及文本描述的目标图像。本申请能够使图像与文本信息融合充分,提升生成图像的准确性和图像质量。
技术关键词
检索图像
多视角特征
图像生成方法
语义结构
分段
大语言模型
多层感知机
文本特征向量
图像特征向量
注意力机制
对象
图像块
位置编码信息
标记
图像生成装置
文本编码器
图像编码器