摘要
本发明公开了一种基于视觉‑语言预训练模型的长尾多标记图像分类方法,获取具有真实标记的多标记样本数据;将传统CLIP预训练模型模型中softmax层替换为sigmoid层,适应多标记任务;构建长尾多标记图像分类模型并对其进行训练;将语义融合特征与文本特征进行残差连接,与图像特征进行余弦相似度计算,并经过sigmoid得到预测概率;由重加权长尾损失函数对模型进行监督训练,并应用参数高效微调避免过拟合问题;针对待测试的图像数据,经过数据增强策略后,输入到训练后的模型中进行预测,最终获得标签的预测结果,实现长尾多标记图像分类。本发明充分利用了标签之间的相关性,缓解长尾类别分布引发的尾部类分类精度不足的影响,提高了多标记分类的准确性。
技术关键词
图像分类方法
预训练模型
卷积神经网络模块
文本编码器
标记
图像分类模型
图像编码器
视觉
样本
节点特征
语义
融合特征
标签
补丁图像
微调技术
超参数
数据
系统为您推荐了相关专利信息
巨量转移方法
承载台装置
设备主体
视觉算法
工业相机
效应分析方法
景观格局指数
地理信息系统
基础地理信息数据
站点
知识检索系统
多模态数据采集
跨模态
文本编码器
图像编码器
人脸识别管理系统
储物柜管理系统
储物柜管理方法
日志
面部特征
知识图谱构建方法
拱坝
线性插值方法
知识图谱架构
大坝