一种基于视觉-语言预训练模型的长尾多标记图像分类方法

正文

推荐专利

申请号：CN202411076021

申请日期：2024-08-07

公开号：CN119048810A

公开日期：2024-11-29

类型：发明专利

摘要

本发明公开了一种基于视觉‑语言预训练模型的长尾多标记图像分类方法，获取具有真实标记的多标记样本数据；将传统CLIP预训练模型模型中softmax层替换为sigmoid层，适应多标记任务；构建长尾多标记图像分类模型并对其进行训练；将语义融合特征与文本特征进行残差连接，与图像特征进行余弦相似度计算，并经过sigmoid得到预测概率；由重加权长尾损失函数对模型进行监督训练，并应用参数高效微调避免过拟合问题；针对待测试的图像数据，经过数据增强策略后，输入到训练后的模型中进行预测，最终获得标签的预测结果，实现长尾多标记图像分类。本发明充分利用了标签之间的相关性，缓解长尾类别分布引发的尾部类分类精度不足的影响，提高了多标记分类的准确性。

技术关键词

图像分类方法预训练模型卷积神经网络模块文本编码器标记图像分类模型图像编码器视觉样本节点特征语义融合特征标签补丁图像微调技术超参数数据

系统为您推荐了相关专利信息

一种针刺巨量转移方法及设备

巨量转移方法承载台装置设备主体视觉算法工业相机

一种流域景观格局变化及水质效应分析方法

效应分析方法景观格局指数地理信息系统基础地理信息数据站点

一种知识检索系统

知识检索系统多模态数据采集跨模态文本编码器图像编码器

一种基于人脸识别的景区储物柜管理系统及方法

人脸识别管理系统储物柜管理系统储物柜管理方法日志面部特征

利用空间关联对拱坝安全评估方法以及知识图谱构建方法

知识图谱构建方法拱坝线性插值方法知识图谱架构大坝

一种基于视觉-语言预训练模型的长尾多标记图像分类方法

站点导航

APP 下载