摘要
本发明公开了一种基于视觉语言预训练模型的细粒度多模态提示学习方法,涉及视觉语言预训练模型技术领域,方法包括:构建用于学习视觉特征与文本特征的多模态提示学习向量,基于所述细粒度多模态提示学习模型,生成不同视觉类别间的全局差异及细微区分视觉特征和类别差异性文本特征,基于余弦相似度损失函数对多模态提示学习向量进行优化。本发明通过双粒度视觉提示与文本提示的结合,有效解决了现有提示学习调优方法中双模态提示表示空间无法协同推理、难以捕捉细微区分性特征的问题,并在多个主要的图像识别基准数据集上验证了其优越的迁移泛化能力和少样本学习能力,在下游任务中取得了显著的性能提升。
技术关键词
预训练模型
多模态
学习方法
全局视觉特征
文本编码器
图像块
高层语义信息
双粒度
细粒度特征
图像编码器
标签
超参数
掩码矩阵
跨模态
分支
系统为您推荐了相关专利信息
视觉特征提取
建模系统
高维向量空间
文本编码器
语言建模方法
四旋翼无人机
实时监测系统
一氧化碳传感器
可见光图像
摄相机
后门检测方法
XGBoost模型
集成学习方法
机器学习模型
个人隐私保护
内容推荐模型
内容推送方法
内容预览
数据
内容推送系统
通信信道
仿真软件
多层感知器
环境感知数据
仿真平台