摘要
本发明公开了一种对爬取的文章进行分类的方法、装置及介质。其中,方法包括:通过网页页面爬虫技术对待爬取页面进行文章爬取,获取文章数据;将文章数据中的文章标题和文章内容分别存储至CSV文件的两列中,获取CSV文件数据;将CSV文件数据中的文章标题作为标签,并将文章内容作为训练数据,通过支持向量机分类器进行训练,生成文章分类模型;将爬取的待分类文章输入至文章分类模型中,获取待分类文章的分类结果。
技术关键词
支持向量机分类器
生成文章
朴素贝叶斯分类器
爬取页面
词袋模型
网页页面
爬虫技术
数据
数值
子模块
电子设备
标签
处理器
可读存储介质
指令
存储器
标记
系统为您推荐了相关专利信息
风险识别方法
非结构化文本
风险识别系统
指数衰减函数
实例标识符
事件特征
DBSCAN密度聚类
热力图
隐马尔可夫模型
防护设备