摘要
本发明公开了一种零样本图像分类方法及装置,属于图像识别领域。本发明通过大型语言模型生成类别描述文档,通过视觉编码器和文本编码器获取图像和文档的全局和局部特征信息,然后通过视觉语义分解模块和文本语义分解模块进行解耦,生成视觉语义嵌入和文本语义嵌入;通过上述模块的联合训练,并优化由局部到语义映射方差损失、多语义多样性损失、分解语义对齐损失和局部语义对齐损失组成的总损失;训练完成后用于推理阶段的图像类别预测。本发明可以降低零样本图像分类的难度,提高分类准确率和效率。
技术关键词
语义
局部图像特征
视觉
零样本图像分类
文本编码器
交叉注意力机制
代表
局部特征信息
模块
图像分类模型
矩阵
分类准确率
线性
图像类别
度函数