摘要
本发明涉及多模态信息检索技术领域,具体公开了基于掩码指导信息融合的新闻场景多层级图文检索方法。本发明引入了基于掩码的交叉注意力模块,通过优化掩码语言模型损失指导图像和文本两个模态的信息更好地融合;通过选择相关程度最高的文本和图像特征,在两个模态之间进行更细粒度并且高效地对齐;充分考虑了新闻数据的数据特性,即新闻文章中图片和所有文本段的弱对齐关系,进而借鉴对比学习的思想,通过拟合数据的真实分布和模型输出分布来更新参数,更好地学习新闻图文之间的层级关联关系。
技术关键词
图文检索方法
层级
跨模态
文本编码器
图像编码器
场景
图片
注意力
信息检索技术
更新模型参数
融合视觉
多层感知机
度量
数据分布
文章
系统为您推荐了相关专利信息
二维灰度图像
生物标志物
宏基因组数据
层级
预测系统
音频特征
文本
情感识别方法
标签
多模态情感识别
数据分类算法
事件相机
对齐模块
生成事件
适配器