基于视觉语言预训练模型的细粒度多模态提示学习方法

AITNT
正文
推荐专利
基于视觉语言预训练模型的细粒度多模态提示学习方法
申请号:CN202411501689
申请日期:2024-10-25
公开号:CN119538179B
公开日期:2025-10-03
类型:发明专利
摘要
本发明公开了一种基于视觉语言预训练模型的细粒度多模态提示学习方法,涉及视觉语言预训练模型技术领域,方法包括:构建用于学习视觉特征与文本特征的多模态提示学习向量,基于所述细粒度多模态提示学习模型,生成不同视觉类别间的全局差异及细微区分视觉特征和类别差异性文本特征,基于余弦相似度损失函数对多模态提示学习向量进行优化。本发明通过双粒度视觉提示与文本提示的结合,有效解决了现有提示学习调优方法中双模态提示表示空间无法协同推理、难以捕捉细微区分性特征的问题,并在多个主要的图像识别基准数据集上验证了其优越的迁移泛化能力和少样本学习能力,在下游任务中取得了显著的性能提升。
技术关键词
预训练模型 多模态 学习方法 全局视觉特征 文本编码器 图像块 高层语义信息 双粒度 细粒度特征 图像编码器 标签 超参数 掩码矩阵 跨模态 分支
系统为您推荐了相关专利信息
1
一种用于图像描述任务的视觉语言建模系统及方法
视觉特征提取 建模系统 高维向量空间 文本编码器 语言建模方法
2
一种基于无人机多传感器林火实时监测系统
四旋翼无人机 实时监测系统 一氧化碳传感器 可见光图像 摄相机
3
一种基于局部模型和集成学习的XGBoost模型后门检测方法及系统
后门检测方法 XGBoost模型 集成学习方法 机器学习模型 个人隐私保护
4
基于大数据挖掘的短剧个性化内容推送方法及系统
内容推荐模型 内容推送方法 内容预览 数据 内容推送系统
5
一种基于传播环境的无人机对地通信信道预测方法
通信信道 仿真软件 多层感知器 环境感知数据 仿真平台
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号