基于多模态实体对齐的多图像处理方法

AITNT
正文
推荐专利
基于多模态实体对齐的多图像处理方法
申请号:CN202510583473
申请日期:2025-05-07
公开号:CN120105353A
公开日期:2025-06-06
类型:发明专利
摘要
本发明属于图像处理技术领域,公开了基于多模态实体对齐的多图像处理方法,包括以下步骤:获取多个图像;从外部知识库中检索实体的丰富语义信息;使用语义信息在多图像场景中为每个实体选择最具代表性的图像;对每个模态的原始输入进行编码;应用交叉扩散注意力在视觉和文本模态之间进行第一层融合,接着通过与结构化模态的第二层交互,最终使用对比损失对齐图像的实体表示;输出融合文本模态和视觉模态的多图像。本申请利用分层交互融合来增强多模态交互;通过整合外部属性值和上下文信息来增强实体文本表示;利用语义文本选择最具代表性的图像,从而最小化不相关图像的影响。
技术关键词
图像处理方法 实体 注意力 语义 图像嵌入 视觉 跨模态 交互特征 矩阵 结构编码器 融合特征 图像特征向量 多模态交互 图谱 定义 文本编码器
系统为您推荐了相关专利信息
1
一种基于深度学习的煤矸X射线图像凹缺陷检测与分割方法
分割方法 深度学习模型 二值化图像 煤矸分选技术 双能X射线
2
一种基于低频特征的土地利用分类方法及相关设备
土地利用分类方法 编码模块 解码模块 输入端 影像
3
离线分析与在线大语言模型结合的异常检测方法及其系统
大语言模型 异常检测方法 离线 在线 注意力
4
扩散模型的构建方法、装置、设备及存储介质
堆栈网络 上采样 预训练模型 训练集 文本
5
基于模型优化的报文字段推断方法与装置
生成解码 数据 图像分割模型 推断方法 标签
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号