摘要
本发明属于图像处理技术领域,公开了基于多模态实体对齐的多图像处理方法,包括以下步骤:获取多个图像;从外部知识库中检索实体的丰富语义信息;使用语义信息在多图像场景中为每个实体选择最具代表性的图像;对每个模态的原始输入进行编码;应用交叉扩散注意力在视觉和文本模态之间进行第一层融合,接着通过与结构化模态的第二层交互,最终使用对比损失对齐图像的实体表示;输出融合文本模态和视觉模态的多图像。本申请利用分层交互融合来增强多模态交互;通过整合外部属性值和上下文信息来增强实体文本表示;利用语义文本选择最具代表性的图像,从而最小化不相关图像的影响。
技术关键词
图像处理方法
实体
注意力
语义
图像嵌入
视觉
跨模态
交互特征
矩阵
结构编码器
融合特征
图像特征向量
多模态交互
图谱
定义
文本编码器
系统为您推荐了相关专利信息
分割方法
深度学习模型
二值化图像
煤矸分选技术
双能X射线
土地利用分类方法
编码模块
解码模块
输入端
影像