摘要
本发明公开了一种基于元提示符的视觉语言模型提示符微调方法,包括如下步骤:获取数据集,并构建可训练的多模态提示符,生成包括拼接文本提示符的文本数据和拼接图像提示符的图像数据;构建预先定义好的元提示符微调框架A,以及冻结基础模型参数的开源模型CLIP,然后将A插入CLIP视觉编码器的指定层以构建适应下游视觉任务的多模态视觉语言模型B;利用所述数据集对B进行训练,优化目标是交叉熵损失和多样性损失;利用训练好的多模态视觉语言模型B输出给定图像的预测结果。本发明的方法适用将预训练大型视觉语言模型迁移到下游视觉任务上的场景,通过利用元提示符,本发明能够促使模型提取更据判别性的视觉特征,极大改善模型的泛化性能。
技术关键词
微调方法
令牌
视觉特征
图像
文本编码器
训练深度神经网络
多模态
模块
数据
批量
随机梯度下降
阶段
框架
参数
样本
传播算法
优化器
标签