摘要
本发明公开了一种自适应多模态提示学习方法,该方法利用大规模视觉语言模型的潜力,通过图像提示和文本提示的协作,提升了样本内和样本外的泛化能力。通过掩蔽图像中的无意义块并采用自适应交互学习机制,本发明有效增强了多模态信息的相互协作和共享,从而在处理少量样本和未见过的类别时,能够稳健地学习图像和文本之间的深层语义联系。在无需大规模微调模型参数的情况下,本发明结合了现有提示学习方法的优势,为多模态任务提供了高效的解决方案。大量实验表明,本发明在多个基准数据集上的性能均优于现有最先进的方法。
技术关键词
图像分类方法
图像编码器
矩阵
意义图像
图像块
生成交互信息
多模态
图像投影
学习方法
参数
样本
补丁
文本编码器
网络
元素
填充方法
预测类别
图像分割
系统为您推荐了相关专利信息
超短基线水声定位系统
协同导航定位方法
远距离
无人潜航器
动态误差补偿
空间定位方法
声呐
遥控潜水器
无迹卡尔曼滤波算法
协方差矩阵
工业物联网
车间
网络平台
环境检测设备
数据采集设备
音源特征
发声设备
麦克风单元
解析算法
声场特征