摘要
本发明公开了一种基于视觉语言模型噪声标签优化的图像分类方法,包括:获取待处理图像并输入图像分类模型,获得分类结果;其中,图像分类模型基于高质量样本集训练得到。在筛选高质量样本的过程中,第一阶段利用CLIP模型,结合宏观、微观文本提示来计算每个样本图像的损失值,通过两分量的高斯混合模型拟合各样本图像的损失值,从而根据两个分布确定混淆样本的上、下界,划分得到干净样本、混淆样本和噪声样本;第二阶段,采用不同策略确定三种样本的伪标签,将每个样本图像与其伪标签输入BLIP模型,计算二者的相似度分数,以筛选出高质量样本。本发明可以在保证标签质量的同时减轻图像分类模型的自我确认偏差,使图像分类模型具有良好的鲁棒性。
技术关键词
图像分类方法
噪声标签
噪声样本
图像分类模型
高斯混合模型
图像特征向量
文本编码器
视觉
预测类别
后验概率
策略
鲁棒性
偏差
系统为您推荐了相关专利信息
模型解释方法
场景
可读存储介质
计算机程序产品
K均值聚类算法
图像分类模型
增量训练方法
滑动窗口
图像分类方法
曲线
音频特征信息
数据融合方法
图像特征信息
智能座舱
双层长短期记忆网络
混合整数规划模型
深度强化学习算法
不确定性模型
策略
闭环反馈机制