摘要
本申请提供一种风格图像生成方法、装置、电子设备及存储介质。该方法包括:对风格参考图进行多尺度特征提取,得到多个尺度的风格图像特征;对风格参考图进行语义特征提取,得到风格图像语义特征,对文本描述进行语义特征提取,得到文本特征,对原始参考图进行结构特征提取,得到结构特征;对风格图像特征进行维度变换,并将维度变换后的风格图像特征与风格图像语义特征进行拼接;将风格图像拼接特征与文本特征进行融合,生成风格图像融合特征,并将风格图像融合特征与文本特征进行跨模态特征融合,生成综合语义特征;基于扩散模型输出目标图像。本申请能够充分提取图像风格特征,提升语义理解与转换的准确性,增强风格一致性和连贯性。
技术关键词
综合语义
语义特征提取
风格图像生成方法
融合特征
文本
图像拼接
多尺度特征提取
结构特征提取
注意力
跨模态
图像编码器
多模态
图像生成装置
标识
子模块
非线性