一种基于双向引导聚合多模态提示学习的图像分类方法

AITNT
正文
推荐专利
一种基于双向引导聚合多模态提示学习的图像分类方法
申请号:CN202510545356
申请日期:2025-04-28
公开号:CN120472211A
公开日期:2025-08-12
类型:发明专利
摘要
本发明公开了一种基于双向引导聚合的多模态提示学习图像分类方法,该方法创新性地在视觉语言模型CLIP框架中构建了双向层级化交互机制。具体地,分别在图像编码器和文本编码器中引入独立提示与聚合提示,其中聚合提示通过引导提示模块和聚合提示模块生成:首先由独立提示经引导模块生成用于另一模态的跨模态引导提示,引导提示再通过注意力机制与上一层独立提示进行自适应融合,最终将各层生成的独立提示与聚合提示拼接后输入编码器进行学习。本方法实现了多模态信息在不同抽象层级间的深度整合,在完全保留预训练知识的前提下,仅需少量样本即可显著提升模型对未见类别的识别能力,有效解决了传统方法因模态交互不足导致的泛化性能差的问题。
技术关键词
图像分类方法 图像编码器 注意力机制 文本编码器 多模态 多层感知机 初始化方法 跨模态 模块 传播算法 线性 文本特征向量 图像特征向量 图像块 交互机制 图像嵌入 参数
系统为您推荐了相关专利信息
1
聚合语义标记角度的高效视觉Transformer方法
语义 标记 局部敏感哈希技术 编码模块 注意力机制
2
一种基于智能算法的语文作文批改方法及系统
批改系统 智能算法 批改方法 特征提取模块 文本
3
尿毒症患者内瘘功能数字化全周期监测评估系统
监测评估系统 尿毒症患者 内瘘 多模态传感器 云端服务器
4
一种基于单目深度引导多模态融合的生物识别方法及系统
多尺度特征 多层级特征 单目深度模型 生物识别方法 深度图
5
基于多模态动态记忆大模型的学生情感分析方法及系统
学生情感分析方法 令牌 图像编码器 面部 视觉
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号