基于视觉语言预训练模型的细粒度多模态提示学习方法

正文

推荐专利

申请号：CN202411501689

申请日期：2024-10-25

公开号：CN119538179B

公开日期：2025-10-03

类型：发明专利

摘要

本发明公开了一种基于视觉语言预训练模型的细粒度多模态提示学习方法，涉及视觉语言预训练模型技术领域，方法包括：构建用于学习视觉特征与文本特征的多模态提示学习向量，基于所述细粒度多模态提示学习模型，生成不同视觉类别间的全局差异及细微区分视觉特征和类别差异性文本特征，基于余弦相似度损失函数对多模态提示学习向量进行优化。本发明通过双粒度视觉提示与文本提示的结合，有效解决了现有提示学习调优方法中双模态提示表示空间无法协同推理、难以捕捉细微区分性特征的问题，并在多个主要的图像识别基准数据集上验证了其优越的迁移泛化能力和少样本学习能力，在下游任务中取得了显著的性能提升。

技术关键词

预训练模型多模态学习方法全局视觉特征文本编码器图像块高层语义信息双粒度细粒度特征图像编码器标签超参数掩码矩阵跨模态分支

系统为您推荐了相关专利信息

一种用于图像描述任务的视觉语言建模系统及方法

视觉特征提取建模系统高维向量空间文本编码器语言建模方法

一种基于无人机多传感器林火实时监测系统

四旋翼无人机实时监测系统一氧化碳传感器可见光图像摄相机

一种基于局部模型和集成学习的XGBoost模型后门检测方法及系统

后门检测方法 XGBoost模型集成学习方法机器学习模型个人隐私保护

基于大数据挖掘的短剧个性化内容推送方法及系统

内容推荐模型内容推送方法内容预览数据内容推送系统

一种基于传播环境的无人机对地通信信道预测方法

通信信道仿真软件多层感知器环境感知数据仿真平台

基于视觉语言预训练模型的细粒度多模态提示学习方法

站点导航

APP 下载