摘要
本发明涉及一种基于关键词优化的企业智能分类方法,属于自然语言处理和机器学习交叉领域。该方法首先利用Textrank算法和K‑means算法自动生成产业关键词词库,然后对待分类企业的介绍信息进行分词、词向量转换和相关性评估,得到企业关键字介绍信息及综合相关性分数。接着,使用Bagging算法生成多个数据集,并输入多个BERT网络模型进行处理,最终得到企业分类结果。最后,根据企业分类结果,使用逆文档频率算法对关键词进行更新迭代,以优化关键词词库。本发明能够自动、高效、准确地识别企业的所属产业,为产业的分类和发展提供了一种新的技术手段,具有较高的实用价值。
技术关键词
智能分类方法
关键词
生成企业
词语
分词
关键字
分层聚类算法
随机森林模型
语义向量
网络
自然语言
频率
训练集
互联网
数据
层级