基于多模态实体对齐的多图像处理方法

正文

推荐专利

基于多模态实体对齐的多图像处理方法

申请号：CN202510583473

申请日期：2025-05-07

公开号：CN120105353A

公开日期：2025-06-06

类型：发明专利

摘要

本发明属于图像处理技术领域，公开了基于多模态实体对齐的多图像处理方法，包括以下步骤：获取多个图像；从外部知识库中检索实体的丰富语义信息；使用语义信息在多图像场景中为每个实体选择最具代表性的图像；对每个模态的原始输入进行编码；应用交叉扩散注意力在视觉和文本模态之间进行第一层融合，接着通过与结构化模态的第二层交互，最终使用对比损失对齐图像的实体表示；输出融合文本模态和视觉模态的多图像。本申请利用分层交互融合来增强多模态交互；通过整合外部属性值和上下文信息来增强实体文本表示；利用语义文本选择最具代表性的图像，从而最小化不相关图像的影响。

技术关键词

图像处理方法实体注意力语义图像嵌入视觉跨模态交互特征矩阵结构编码器融合特征图像特征向量多模态交互图谱定义文本编码器

系统为您推荐了相关专利信息

一种基于深度学习的煤矸X射线图像凹缺陷检测与分割方法

分割方法深度学习模型二值化图像煤矸分选技术双能X射线

一种基于低频特征的土地利用分类方法及相关设备

土地利用分类方法编码模块解码模块输入端影像

离线分析与在线大语言模型结合的异常检测方法及其系统

大语言模型异常检测方法离线在线注意力

扩散模型的构建方法、装置、设备及存储介质

堆栈网络上采样预训练模型训练集文本

基于模型优化的报文字段推断方法与装置

生成解码数据图像分割模型推断方法标签

基于多模态实体对齐的多图像处理方法

站点导航

APP 下载