摘要
本发明提出一种基于多模态模型CLIP的隐空间净化的图像分类方法和装置,包括:将待分类图片输入图文多模态对比预训练模型的图像编码器,得到待分类图片在隐空间上的表示向量;使用图文多模态对比预训练模型的文本编码器,得到空类别文本所表示的空类别文本嵌入向量;计算表示向量和空类别文本嵌入向量的概率似然值;提取表示向量的向量长度与方向矢量,计算似然概率值对方向矢量的梯度,采用梯度上升方法对方向矢量进行更新同时保持向量长度不变,得到净化向量;通过选择与最终净化向量相似度最高的类别文本嵌入向量,将类别文本嵌入向量对应的图像类别作为类别文本嵌入向量的分类结果。
技术关键词
图像分类方法
多模态
预训练模型
图像分类装置
文本编码器
图像编码器
信息显示设备
图像类别
图文
图片
人工智能模型
模块
计算机程序产品
噪声
电子设备
可读存储介质
理论
处理器
系统为您推荐了相关专利信息
红外热成像仪
引导装置
多模态环境
视觉相机
数据处理单元
动态管理方法
分布式爬虫
策略
一致性算法
元学习算法
一体化方法
多模态
数据压缩
模态传感器
编码向量加密
数字化方法
量化误差
校正算法
多模态
迭代优化方法