摘要
本发明公开了一种语义外延与内涵双驱动的多模态图像文本检索方法,涉及数据检索技术领域,包括S1、获取原始图像与文本数据对的数据集;S2、构建外部场景知识库模块,将场景知识库中的语义的外延信息和内涵信息分别作为文本和图像的语义扩展与补充,进一步丰富图像和文本中的语义信息;S3、设计多模态语义表征模块,对扩展的语义外延和语义内涵进行特征表示,以此获得强化后的图像特征和文本特征补充,增强语义理解的深度和广度;S4、定义跨模态相似性计算框架,通过模态间相似性约束提升语义对齐精度,利用多模态对比学习损失函数约束优化模型参数;S5、将查询文本和扩展的语义外延信息进行整合并编码。
技术关键词
文本检索方法
外延
图像
多模态
约束优化模型
集成编码器
跨模态
数据检索技术
损失函数优化
场景
度量
三元组
强化特征
语义特征
框架
模块
融合特征
系统为您推荐了相关专利信息
行人轨迹预测方法
编码器模块
终点
迁移学习技术
阶段
医学图像分割模型
分割方法
感兴趣
训练集
滑动窗口采样
图像分析方法
火焰相互作用
轮廓识别
射流
相邻两帧图像
定位规则
生物特征数据
车辆运行状态
面部特征识别
多模态