摘要
本发明公开了一种企业国民行业标签补全方法、系统、设备及存储介质,建立企业国民行业标签分类集,所述标签分类集包括企业所属行业门类、大类、中类和小类的多个标签类别;获取原始企业样本数据集并进行预处理和标注标签,构建训练集、验证集以及测试集;使用所述训练集、验证集和测试集对预先建立的XLNet模型进行训练、验证和测试;将预处理后的未标记企业样本数据输入至训练好的XLNet模型获取模型输出结果,并通过训练好的softmax分类器得到标签分类结果。对于产业研究中的行业专项分析及统计分析,能够极大地提高产业研究分析中的分析效率及可靠性,帮助高效地解决全国上千万家企业的国民行业标签不全的问题。
技术关键词
标签补全方法
企业
构建训练集
样本
标签类别
数据
分类器
模型训练模块
可读存储介质
处理器
标记
损失率
存储器
计算机
字词
电子设备
程序