摘要
本发明公开了一种融合细粒度局部语义和全局语义的多模态图文检索方法,本发明首先提取图像和文本原始特征,并进行区域关系推理以获取关系增强的局部特征。然后利用注意力机制对同一模态内不同样本进行语义交互,从而充分学习各模态内样本间关联关系,得到语义增强的图像文本嵌入。最后采用三角约束改进的三元组损失函数训练整个模型。本发明充分挖掘语义相似性和差异性,增强模型区分语义模糊样本的能力,解决了现有跨模态图文检索中差异细微或语义模糊的难分样本中的细微差异识别准确度低等问题。
技术关键词
图文检索方法
语义
文本
嵌入特征
多头注意力机制
图像区域特征提取
矩阵
跨模态图文检索
样本
排序损失
三元组损失函数
图像局部特征
生成关系
图像嵌入
词特征
系统为您推荐了相关专利信息
虚拟坐席
梳理系统
语音识别模块
语音识别单元
语音识别模型
时域特征
频域特征
智能语音控制器
带噪语音信号
语音识别方法
情感交互方法
语义向量
注意力机制
输入解码器
策略
量化评估系统
危险性
多模态
深度神经网络模型
深度学习预测模型