摘要
本申请涉及数据处理技术领域,公开了一种用于专利分类的方法和系统,包括:对有标签数据集进行数据扩充后训练分类模型,得到第一分类模型;使用第一分类模型对无标签数据集进行分类,将分类结果中置信度大于预设置信度阈值的所有无标签数据作为第一待补充数据;根据分类结果、第一待补充数据和无标签数据集的聚类结果确定第二待补充数据;对第二待补充数据进行扩充后加入至扩充后的有标签数据集,对第一分类模型进行训练,得到训练好的分类模型。本申请能够获取高质量的无标签数据,将其进行扩充后加入至有标签数据集对第一分类模型进行训练,从而将高质量无标签数据的数量用于模型训练,充分利用无标签专利数据得到准确度高的分类模型。
技术关键词
无标签数据
训练分类模型
置信度阈值
聚类
文本
数据处理技术
数据获取模块
样本
系统为您推荐了相关专利信息
岩石薄片
偏光显微镜
文本生成模型
生成方法
图像特征向量
生成音频数据
音频特征提取
风格
文本
浅层卷积神经网络