一种基于双向引导聚合多模态提示学习的图像分类方法

正文

推荐专利

申请号：CN202510545356

申请日期：2025-04-28

公开号：CN120472211A

公开日期：2025-08-12

类型：发明专利

摘要

本发明公开了一种基于双向引导聚合的多模态提示学习图像分类方法，该方法创新性地在视觉语言模型CLIP框架中构建了双向层级化交互机制。具体地，分别在图像编码器和文本编码器中引入独立提示与聚合提示，其中聚合提示通过引导提示模块和聚合提示模块生成：首先由独立提示经引导模块生成用于另一模态的跨模态引导提示，引导提示再通过注意力机制与上一层独立提示进行自适应融合，最终将各层生成的独立提示与聚合提示拼接后输入编码器进行学习。本方法实现了多模态信息在不同抽象层级间的深度整合，在完全保留预训练知识的前提下，仅需少量样本即可显著提升模型对未见类别的识别能力，有效解决了传统方法因模态交互不足导致的泛化性能差的问题。

技术关键词

图像分类方法图像编码器注意力机制文本编码器多模态多层感知机初始化方法跨模态模块传播算法线性文本特征向量图像特征向量图像块交互机制图像嵌入参数

系统为您推荐了相关专利信息

聚合语义标记角度的高效视觉Transformer方法

语义标记局部敏感哈希技术编码模块注意力机制

一种基于智能算法的语文作文批改方法及系统

批改系统智能算法批改方法特征提取模块文本

尿毒症患者内瘘功能数字化全周期监测评估系统

监测评估系统尿毒症患者内瘘多模态传感器云端服务器

一种基于单目深度引导多模态融合的生物识别方法及系统

多尺度特征多层级特征单目深度模型生物识别方法深度图

基于多模态动态记忆大模型的学生情感分析方法及系统

学生情感分析方法令牌图像编码器面部视觉

一种基于双向引导聚合多模态提示学习的图像分类方法

站点导航

APP 下载