一种对爬取的文章进行分类的方法、装置及介质

AITNT
正文
推荐专利
一种对爬取的文章进行分类的方法、装置及介质
申请号:CN202411006452
申请日期:2024-07-25
公开号:CN118981533A
公开日期:2024-11-19
类型:发明专利
摘要
本发明公开了一种对爬取的文章进行分类的方法、装置及介质。其中,方法包括:通过网页页面爬虫技术对待爬取页面进行文章爬取,获取文章数据;将文章数据中的文章标题和文章内容分别存储至CSV文件的两列中,获取CSV文件数据;将CSV文件数据中的文章标题作为标签,并将文章内容作为训练数据,通过支持向量机分类器进行训练,生成文章分类模型;将爬取的待分类文章输入至文章分类模型中,获取待分类文章的分类结果。
技术关键词
支持向量机分类器 生成文章 朴素贝叶斯分类器 爬取页面 词袋模型 网页页面 爬虫技术 数据 数值 子模块 电子设备 标签 处理器 可读存储介质 指令 存储器 标记
系统为您推荐了相关专利信息
1
一种供应链中断风险识别方法及系统
风险识别方法 非结构化文本 风险识别系统 指数衰减函数 实例标识符
2
一种针对大数据的物联网管理平台的方法及系统
大数据 指纹特征 K近邻算法 物理设备 信号
3
一种基于光纤传感器的雷电观测方法和系统
传感器节点 光纤传感器 观测方法 坐标 报告
4
鼓风机的稳定性能评估方法及系统
脉宽调制信号 鼓风机叶轮 相位补偿值 阻尼 频率
5
一种基于车联网的安全评估方法及系统
事件特征 DBSCAN密度聚类 热力图 隐马尔可夫模型 防护设备
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号