一种融合细粒度局部语义和全局语义的多模态图文检索方法

正文

推荐专利

申请号：CN202510418930

申请日期：2025-04-03

公开号：CN120705346A

公开日期：2025-09-26

类型：发明专利

摘要

本发明公开了一种融合细粒度局部语义和全局语义的多模态图文检索方法，本发明首先提取图像和文本原始特征，并进行区域关系推理以获取关系增强的局部特征。然后利用注意力机制对同一模态内不同样本进行语义交互，从而充分学习各模态内样本间关联关系，得到语义增强的图像文本嵌入。最后采用三角约束改进的三元组损失函数训练整个模型。本发明充分挖掘语义相似性和差异性，增强模型区分语义模糊样本的能力，解决了现有跨模态图文检索中差异细微或语义模糊的难分样本中的细微差异识别准确度低等问题。

技术关键词

图文检索方法语义文本嵌入特征多头注意力机制图像区域特征提取矩阵跨模态图文检索样本排序损失三元组损失函数图像局部特征生成关系图像嵌入词特征

系统为您推荐了相关专利信息

一种虚拟坐席智能化信息梳理系统及方法

虚拟坐席梳理系统语音识别模块语音识别单元语音识别模型

一种用于智能语音控制器的可变比特率量化语音识别方法

时域特征频域特征智能语音控制器带噪语音信号语音识别方法

基于上下文信息的实体及实体关系确定方法及信息抽取模型的训练方法

实体信息抽取模型关系标签核心

基于多注意力机制融合的情感交互方法及系统

情感交互方法语义向量注意力机制输入解码器策略

一种多模态数据协同分析危险性量化评估系统

量化评估系统危险性多模态深度神经网络模型深度学习预测模型

一种融合细粒度局部语义和全局语义的多模态图文检索方法

站点导航

APP 下载