摘要
本发明公开一种基于小模型和多模态大识图模型协同的图像分类方法及系统,方法包括:将待分类图像输入小识图模型,输出图片粗分类结果;根据粗分类结果匹配预设提示词库:匹配失败输出图片类别为其它,匹配成功则调用多模态大识图模型处理;将待分类图像及其匹配的预设提示词库输入多模态大识图模型,得到图片细分类结果;所述多模态大识图模型包含四个组成模块:视觉编码器、语言模型、视觉语言融合器以及结果输出模块;融合图片粗分类结果与图片细分类结果,得到图像的最终细粒度分类结果。
技术关键词
图像分类方法
多模态
细粒度分类
融合视觉特征
图片类别
图像视觉特征
融合器
标签
输出模块
文本
模型主体
图像分类系统
多头注意力机制
融合特征
图像块
标记