摘要
本发明提供了一种自动化收集和提取企业创新活动信息方法及系统,通过S1基于TF‑IDF的关键词抽取算法,建立创新活动信息的特征词库;S2扫描目标网站的网页结构,定位到目标网页并获取网页源代码;S3依据HTML标签进行分块,得到待识别文本块;S4.依据所述特征词库,计算所述待识别文本块与所述目标信息的相关度,依据所述相关度筛选得到创新活动内容;S5.利用爬虫工具抓取创新活动内容;S6.对抓取到的所述目标内容进行质量评价及价值分类;S7将所述高价值的所述目标内容存入企业信息库,将所述低价值的所述目标内容存入备用对照学习库,实现了对企业创新活动信息高效、精准地抓取,并提高这些信息的利用率。
技术关键词
特征词库
识别文本块
网页结构
关键词
密度算法
抽取算法
企业
标签
分块
节点
数据存储模块
网页正文内容
符号
扫描模块
技术创新
识别模块
抓取模块
样本
爬虫
系统为您推荐了相关专利信息
推荐方法
代码分析工具
静态代码分析
关键词
广度优先搜索算法