摘要
本发明公开了基于网络爬虫的企业优惠自动申报方法及系统,属于自然语言处理技术领域,本发明要解决的技术问题为如何从海量优惠信息中找到企业可申报的优惠,及时推送给企业进行申报,采用的技术方案为:建立优惠信息文件库:利用网络爬虫技术收集互联网上关于企业优惠申报的信息,并汇总整理形成优惠信息文件库;建立企业档案库:企业自行整理企业名称、注册时间、企业类型、所属地、所述行业、经营范围、经营规模以及人员规模形成企业档案库;数据预处理:将收集的优惠信息进行数据预处理,并将预处理后的数据存入数据库中;特征提取:利用Text‑Rank算法对预处理后的优惠内容进行优惠特征提取;建立匹配模型;匹配模型优化;自动申报信息推送。
技术关键词
申报方法
企业
档案库
PageRank算法
多标记分类
关键词
生成匹配模型
建立匹配模型
文本
摘要
建立分类模型
子模块
数据
爬虫技术
互联网
节点
申报系统
网络