摘要
本发明公开了一种大模型增强的跨模态检索方法、系统及相关设备,所述跨模态检索方法包括:获取图像‑文本对;基于所述图像‑文本对,获取图像‑文本对的大模型增强信息,结合原始图像、文本和增强信息,采用预训练CLIP模型的多分支编码器以得到多个特征向量,构建多级协同对齐损失函数,在公共语义空间对图像模态和文本模态进行协同对齐;通过所述多级协同对齐损失函数以及预构建的训练数据库对模型进行训练,通过训练后的模型进行检索。本发明通过对编码器得到的图文特征进行协同学习,通过加入辅助的语义增强信息,在公共语义空间对图像模态和文本模态进行协同对齐,以训练出更好的检索网络从而提升图像‑文本检索的准确性。
技术关键词
文本编码器
图像编码器
跨模态检索方法
语义实体
大语言模型
样本
非暂态计算机可读存储介质
生成文本摘要
损失函数设计
分支
梯度下降算法
特征提取模块
检索系统
系统为您推荐了相关专利信息
异常检测系统
样本
异常检测方法
图像编码器
多模态
风格迁移方法
文本编码器
代表
深度卷积神经网络
图像编码器
学习方法
编辑距离算法
语句
表达式
句法依存关系