摘要
本发明涉及一种基于轻量化CLIP模型的图文处理方法及系统,方法包括:获取待处理的图文数据,将图文数据利用轻量化CLIP模型进行特征提取,基于提取的特征进行图像文本检索或图像文本分类;其中,轻量化CLIP模型为将原始CLIP模型中的Pre‑LN块替换为包含注意力机制的SAS‑P块后得到的改进CLIP模型;改进模型的训练包括:改进CLIP模型作为学生模型,将原始CLIP模型作为教师模型,进行模型训练,模型训练采用对比损失、配对损失和多阶段知识蒸馏损失更新改进CLIP模型参数,系统用于实现上述方法。与现有技术相比,本发明提供了一种用于图文处理的轻量化CLIP模型,降低了CLIP模型规模,减少了模型计算和训练成本,从而实现了高效的图文处理。
技术关键词
图文
视觉特征
模态特征
蒸馏
教师
学生
文本
双模态
矩阵
注意力机制
表达式
损失计算方法
数据
前馈神经网络
图像
输出特征
多阶段
超参数