一种基于元提示符的视觉语言模型提示符微调方法

正文

推荐专利

申请号：CN202510396824

申请日期：2025-03-31

公开号：CN120470121A

公开日期：2025-08-12

类型：发明专利

摘要

本发明公开了一种基于元提示符的视觉语言模型提示符微调方法，包括如下步骤：获取数据集，并构建可训练的多模态提示符，生成包括拼接文本提示符的文本数据和拼接图像提示符的图像数据；构建预先定义好的元提示符微调框架A，以及冻结基础模型参数的开源模型CLIP，然后将A插入CLIP视觉编码器的指定层以构建适应下游视觉任务的多模态视觉语言模型B；利用所述数据集对B进行训练，优化目标是交叉熵损失和多样性损失；利用训练好的多模态视觉语言模型B输出给定图像的预测结果。本发明的方法适用将预训练大型视觉语言模型迁移到下游视觉任务上的场景，通过利用元提示符，本发明能够促使模型提取更据判别性的视觉特征，极大改善模型的泛化性能。

技术关键词

微调方法令牌视觉特征图像文本编码器训练深度神经网络多模态模块数据批量随机梯度下降阶段框架参数样本传播算法优化器标签

一种基于元提示符的视觉语言模型提示符微调方法

站点导航

APP 下载