摘要
本发明提供一种跨模态的图文检索处理方法与系统,应用于信息检索领域,其中,上述方法包括:获取用户在图文检索过程中输入的查询文本;通过文本编码器对查询文本进行编码,生成查询文本特征向量;通过跨模态图文检索模型,基于查询文本特征向量与外部知识库中存储的多模态嵌入表示进行相似度匹配,返回大于匹配阈值的多模态嵌入表示对应的相关结果,其中,多模态嵌入表示用于表示图像与文本的联合特征;在相关结果同时包括图像与文本时,将相关结果与查询文本输入至预设的多模态大模型中,进行带有文本辅助的图像问答,得到多模态大模型输出的检索结果;通过本发明能够更好地捕捉图像和文本之间的语义关联,从而提高图文检索的准确性。
技术关键词
文本特征向量
图像特征向量
跨模态图文检索
样本
三元组损失函数
多模态
文本编码器
图像编码器
注意力机制
非暂态计算机可读存储介质
图像块
处理器
训练集
系统为您推荐了相关专利信息
物体
无人机捕获方法
控制器
运动状态分析
非暂态计算机可读存储介质
预测分类模型
预警方法
融合特征
SMOTE算法
医疗数据分析技术
预警模型
故障记录数据
深度信念网络
电能表故障
编码器
引物探针组合
核苷酸
试剂盒
数字PCR方法
序列
数据解析方法
数据输出格式
字段
样本
计算机设备