摘要
本发明涉及一种基于随机森林的文献期刊自动分类方法、介质及系统,所述方法包括以下步骤:获取待分类文献的PDF文档,提取所述PDF文档的首页文本信息,并对所述首页文本信息进行数据清洗,得到文本数据;利用TF‑IDF向量化器将所述文本数据转化为数值特征,得到特征矩阵,将所述特征矩阵输入到随机森林模型中进行期刊分类;根据期刊分类结果,以所述文献对应的期刊名为文件夹名创建期刊名文件夹,将同一期刊名的所述文献的PDF文档存放到对应所述期刊名文件夹中。与现有技术相比,本发明实现了根据文献对应的期刊名对文献进行自动化分类,大幅降低了人工干预的需求。
技术关键词
自动分类方法
期刊
随机森林模型
文件夹
文本
矩阵
自动分类系统
上存储计算机程序
可读存储介质
存放模块
数据获取模块
数值
摘要
论文
文章
日期
系统为您推荐了相关专利信息
预训练方法
文本编码器
标记特征
视觉特征
注意力模型