摘要
本发明属于数据处理技术领域,提供了一种标注数据自动筛选推荐方法、系统。所述方法包括:接收包含多个标注样本的初始数据集;基于当前筛选标记为待保留的标注样本,采用置信度正则化损失函数训练分类模型;利用训练后的分类模型计算初始数据集中的各标注样本的交叉熵损失项与对应置信度正则化项的和,作为该标注样本的正则化损失值;将每个标注样本的正则化损失值与对应的筛选阈值进行比较,若正则化损失值小于筛选阈值,则将该标注样本的筛选标记更新为待保留,否则更新为待排除。本发明能够精准剥离噪声标签,筛选出高质量样本,减少噪声干扰,提升模型训练效果与泛化能力。
技术关键词
训练分类模型
样本
推荐方法
噪声标签
加权损失函数
标记
计算机存储介质
序列
计算机程序产品
推荐系统
注意力
处理器
数据处理技术
电子设备
存储器
强度
数值
模块
系统为您推荐了相关专利信息
检修计划
故障预测模型
管理系统
历史运行数据
构建预测模型
油耗预测方法
油门踏板开度
控制模块
道路坡度数据
传输模块
标签标注方法
置信度阈值
样本
预测图像数据
数据分布
轴承剩余寿命预测
迁移学习方法
分类器
样本
预测轴承剩余寿命