摘要
本发明公开了一种基于双向引导聚合的多模态提示学习图像分类方法,该方法创新性地在视觉语言模型CLIP框架中构建了双向层级化交互机制。具体地,分别在图像编码器和文本编码器中引入独立提示与聚合提示,其中聚合提示通过引导提示模块和聚合提示模块生成:首先由独立提示经引导模块生成用于另一模态的跨模态引导提示,引导提示再通过注意力机制与上一层独立提示进行自适应融合,最终将各层生成的独立提示与聚合提示拼接后输入编码器进行学习。本方法实现了多模态信息在不同抽象层级间的深度整合,在完全保留预训练知识的前提下,仅需少量样本即可显著提升模型对未见类别的识别能力,有效解决了传统方法因模态交互不足导致的泛化性能差的问题。
技术关键词
图像分类方法
图像编码器
注意力机制
文本编码器
多模态
多层感知机
初始化方法
跨模态
模块
传播算法
线性
文本特征向量
图像特征向量
图像块
交互机制
图像嵌入
参数
系统为您推荐了相关专利信息
语义
标记
局部敏感哈希技术
编码模块
注意力机制
监测评估系统
尿毒症患者
内瘘
多模态传感器
云端服务器
多尺度特征
多层级特征
单目深度模型
生物识别方法
深度图