一种融合细粒度局部语义和全局语义的多模态图文检索方法

AITNT
正文
推荐专利
一种融合细粒度局部语义和全局语义的多模态图文检索方法
申请号:CN202510418930
申请日期:2025-04-03
公开号:CN120705346A
公开日期:2025-09-26
类型:发明专利
摘要
本发明公开了一种融合细粒度局部语义和全局语义的多模态图文检索方法,本发明首先提取图像和文本原始特征,并进行区域关系推理以获取关系增强的局部特征。然后利用注意力机制对同一模态内不同样本进行语义交互,从而充分学习各模态内样本间关联关系,得到语义增强的图像文本嵌入。最后采用三角约束改进的三元组损失函数训练整个模型。本发明充分挖掘语义相似性和差异性,增强模型区分语义模糊样本的能力,解决了现有跨模态图文检索中差异细微或语义模糊的难分样本中的细微差异识别准确度低等问题。
技术关键词
图文检索方法 语义 文本 嵌入特征 多头注意力机制 图像区域特征提取 矩阵 跨模态图文检索 样本 排序损失 三元组损失函数 图像局部特征 生成关系 图像嵌入 词特征
系统为您推荐了相关专利信息
1
一种虚拟坐席智能化信息梳理系统及方法
虚拟坐席 梳理系统 语音识别模块 语音识别单元 语音识别模型
2
一种用于智能语音控制器的可变比特率量化语音识别方法
时域特征 频域特征 智能语音控制器 带噪语音信号 语音识别方法
3
基于上下文信息的实体及实体关系确定方法及信息抽取模型的训练方法
实体 信息抽取模型 关系 标签 核心
4
基于多注意力机制融合的情感交互方法及系统
情感交互方法 语义向量 注意力机制 输入解码器 策略
5
一种多模态数据协同分析危险性量化评估系统
量化评估系统 危险性 多模态 深度神经网络模型 深度学习预测模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号