一种基于视觉-语言预训练模型的长尾多标记图像分类方法

AITNT
正文
推荐专利
一种基于视觉-语言预训练模型的长尾多标记图像分类方法
申请号:CN202411076021
申请日期:2024-08-07
公开号:CN119048810A
公开日期:2024-11-29
类型:发明专利
摘要
本发明公开了一种基于视觉‑语言预训练模型的长尾多标记图像分类方法,获取具有真实标记的多标记样本数据;将传统CLIP预训练模型模型中softmax层替换为sigmoid层,适应多标记任务;构建长尾多标记图像分类模型并对其进行训练;将语义融合特征与文本特征进行残差连接,与图像特征进行余弦相似度计算,并经过sigmoid得到预测概率;由重加权长尾损失函数对模型进行监督训练,并应用参数高效微调避免过拟合问题;针对待测试的图像数据,经过数据增强策略后,输入到训练后的模型中进行预测,最终获得标签的预测结果,实现长尾多标记图像分类。本发明充分利用了标签之间的相关性,缓解长尾类别分布引发的尾部类分类精度不足的影响,提高了多标记分类的准确性。
技术关键词
图像分类方法 预训练模型 卷积神经网络模块 文本编码器 标记 图像分类模型 图像编码器 视觉 样本 节点特征 语义 融合特征 标签 补丁图像 微调技术 超参数 数据
系统为您推荐了相关专利信息
1
一种针刺巨量转移方法及设备
巨量转移方法 承载台装置 设备主体 视觉算法 工业相机
2
一种流域景观格局变化及水质效应分析方法
效应分析方法 景观格局指数 地理信息系统 基础地理信息数据 站点
3
一种知识检索系统
知识检索系统 多模态数据采集 跨模态 文本编码器 图像编码器
4
一种基于人脸识别的景区储物柜管理系统及方法
人脸识别管理系统 储物柜管理系统 储物柜管理方法 日志 面部特征
5
利用空间关联对拱坝安全评估方法以及知识图谱构建方法
知识图谱构建方法 拱坝 线性插值方法 知识图谱架构 大坝
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号