摘要
本公开提供了一种图像处理方法、装置、电子设备及存储介质,涉及人工智能技术领域,具体涉及计算机视觉、深度学习、大模型等技术领域。方案为:获取与图像处理任务适配的输入内容;其中,输入内容包括第一文本词元序列、第一图像词元序列以及图文融合序列中的至少一种;对输入内容进行跨模态语义建模,以得到包含多模态语义信息的联合特征表示;其中,多模态语义信息用于指示输入内容在不同模态之间的语义关联关系;基于联合特征表示,生成与图像处理任务适配的输出内容。
技术关键词
序列
文本
融合特征
多模态
解码网络
跨模态
多层感知网络
图像处理方法
图像还原
语义特征提取
特征融合网络
样本
像素
图文
电子设备