摘要
本发明公开了一种基于知识增强的多模态大模型小样本分类方法,涉及人工智能和计算机视觉领域,方法包括:收集多场景图像数据集,将基类、新类数据构建为符合元学习范式的小样本指令微调集和测试集;对微调集的图片与文本标签进行增强,并输入多模态大模型进行微调;在推理阶段,随机选择历史对话和测试集中的指令,一同输入微调后的模型获取初始分类结果;之后,对每张图像生成多条属性描述,计算图像间描述相似性并排序,以筛选可靠候选答案;最终,判断初始答案的可靠性,若不可靠,则利用新的候选答案构建指令重新推理。本发明通过基于微调和推理双阶段的知识增强方法,提升了多模态大模型的小样本分类能力,适用于通用和细粒度分类任务。
技术关键词
样本分类方法
答案
指令
图片
多模态
适配器
数据
细粒度分类
矩阵
组织
标签
计算机视觉
文本
图像增强
策略
多场景
阶段
参数