摘要
本发明涉及计算机视觉技术领域,特别涉及针对长尾噪声的模型训练方法、装置、设备和介质,方法包括将输入图像、文本提示词和观测标签输入预训练的视觉语言模型中,视觉语言模型的图像编码器中设置有微调模块;在视觉语言模型中得到文本特征、图像特征及对各个类别的原始输出值,并得到文本预测标签;确定监督启停状态和目标损失函数,并基于目标损失函数对微调模块进行更新,以得到完成训练的视觉语言模型。本申请通过评估文本预测标签和观察标签之间的差异确定是否需要文本图像对齐先验辅助监督,通过校准学习到的特征和观测标签之间的偏差,进而提高了头部类和尾部类样本在高噪声场景下的分类准确率。
技术关键词
模型训练方法
图像编码器
标签
文本编码器
噪声数据
计算机视觉技术
模型训练装置
分类准确率
可读存储介质
特征提取模块
处理器
输入模块
存储器
系统为您推荐了相关专利信息
多模态信息融合
报告生成方法
疾病
文本编码器
生成医学报告
模型训练方法
权重特征
样本
识别方法
人工智能方法
RFID读写器
施工现场智能
施工智能
出入库信息
设备管理模块
主特征提取
注意力
门控循环网络
学生
预训练语言模型